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随 着 真实 世界 中 计算 机 生成 的 信息 越 来 越 多 ， 增 强 现 实 (AR) 可 以 通 思议 的 方式 增强 人 类 
的 感知 能 力 。 这 个 快速 发 展 的 领域 要 求学 习 者 掌握 多 学 科 知 识 ， 包 括 计算 机 视觉 、 计 算 机 图 形 学 、 人 
机 交互 等 。 本 书 将 这 些 知 识 有 机 融合 ， 严 说 且 准 确 地 展现 了 当前 颇具 影响 力 的 增强 现实 技术 和 应 用 。 
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了 理论 与 实践 的 有 机 融合 ， 适 合 开发 者 、 高 校 师 生 和 研究 者 阅读 。 
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每 一 个 现代 智能 手机 都 包含 磁力 仪 ， 但 是 单独 传 感 硕 的 精度 通常 都 很 低 。 本 图 
显示 了 了 当 佩 戴 在 用 户 右 手 上 的 金属 手表 接近 该 设备 时 随时 间 产 生 的 航 癌 误差 
(由 Gerhard Schall 提供 ) 





现代 数码 摄像 机 使 用 CCD 传感器 来 确定 人 射 光 的 强度 。 通 过 应 用 拜耳 模式 的 
滤波 器 添加 颜色 


激光 投影 仪 RGB PRE ERE 





RGB 图 像 红外 图 像 深度 图 
b) c) d) 
a) Microsoft Kinect V1 是 一 蒜 RGB-D 摄像 机 ， 通 过 手势 识别 来 控制 Xbox HF 
o b) ERM RGB 摄像 机 提供 一 幅 篆 规 彩 色 图 像 。c) 激光 投影 仪 在 场景 中 投射 
不 可 见 的 红外 交点 图 形 。d) 深度 传 感 硕 使 用 红外 摄像 机 观测 该 光 点 图 形 并 计 
算出 深度 图 。 诬 度 图 使 用 颜色 编码 显示 ， 由 近 及 远 为 从 红色 到 蓝 色 





系统 沿 图 像 中 强 边 缘 取 样 ， 并 将 它们 与 已 知 的 室外 
图 3.23 来 目 剑桥 大 学 的 Going Out 系统 沿 图 像 中 强 边 绿 取样 ， 并 将 它 





= ee Fe rh 和 兴趣 点 。 通 过 足够 
征 匹 配 允 许 系统 从 跟踪 模型 中 识别 已 知 兴趣 点 。 通 过 
图 3.26 ”在 场景 的 新 视图 中 特征 匹配 允许 系统 从 跟踪 模型 中 识别 a 
= lal ke 1 可 以 确定 当前 摄像 机 的 位 姿 ( 由 Martin 
tr ey 占 站 ， 该 场景 可 以 被 识别 且 可 以 确定 当前 摄像 机 的 位 姿 (由 
多 数量 的 点 对 应 ， 该 场景 可 以 被 识 另 


. bey LH 
Hirzer #21 ) 





a) b) 


图 3.28 a) 环顾 角落 的 跟踪 。 摄 像 机 C, 跟踪 对 象 A 和 B， 而 摄像 机 C, 只 能 看 见 A 





图 4.27 


图 4.29 


通过 融合 所 有 得 到 的 跟踪 信息 可 以 确定 B 相对 于 C 的 位 姿 。b) 左边 的 标志 点 
的 表面 没有 朝向 摄像 机 ， 因 此 不 能 通过 显示 的 图 像 跟踪 。 但 是 ， 在 第 二 台 摄 像 
机 的 帮助 下 ,增强 的 物体 ( 蓝 色 立 方块 ) 可 以 被 成 功 地 放置 在 标志 点 位 置 (由 


Florian Ledermann 提供 ) 


方位 感知 特征 匹配 





磁力 计 (罗盘 ) 可 以 用 作 先 验 信息 的 来 源 ， 将 对 应 点 的 搜索 范围 缩小 到 正常 朝 
回 用 户 的 区 域 (由 Clemens Arth 提供 ) 





中 心 广场 的 潜在 可 见 集 合 包含 与 广场 直接 相连 的 街道 区 段 ( 蓝 色 箭头 ), 但 是 不 
包含 一 到 两 个 转弯 之 后 的 街道 区 段 ( 红 虚 线 ) 
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客户 端 服务 般 
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地 图 更 新 地 图 构建 ”全 局 位 次 
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跟踪 的 全 局 位 姿 


图 4.30 ”传统 的 SLAM ( 蓝 色 ) 在 一 台 移 动 客户 端 设备 上 进行 同时 跟踪 与 地 图 构建 。 通 
过 增加 一 台 和 定位 服务 器 ( 橘 黄 色 )， 可 以 加 入 第 三 个 并 发 活动 : 为 广 域 定 位 匹配 
一 个 视觉 特征 的 全 局 数据 库 。 客 户 端 和 服务 器 独立 运行 ， 所 以 客户 端 能 够 一 直 
以 最 高 帆 座 运行 





图 4.32 ”在 使 用 全 景 SLAM 时 用 户 只 能 做 旋转 运动 ， 就 像 探 索 当 前 环境 那样 (由 Daniel 
Wagner 提供 ) 





图 4.34 客户 端 利用 6 自由 度 SLAM 跟踪 的 视频 序列 中 的 多 幅 图 像 ， 定 位 服务 兹 提供 
用 于 透明 黄色 结构 窗 盖 楼 房 轮 慷 的 全 局 位 姿 (由 Jonathan Ventura 和 Clemens 
Arth 提供 ) 





图 4.35 该 SLAM 序列 从 外 立 面 跟踪 (黄色 覆盖 区 域 ) 开始 ， 全 局 位 姿 由 服务 器 确定 。 
第 二 行 的 图 像 不 能 利用 服务 顺 已 知 的 信息 连续 跟踪 ; 集成 在 SLAM 地 图 中 的 前 
景 海报 用 于 跟 踊 (由 Jonathan Ventura 和 Clemens Arth 提供 ) 


三 角 无 限 特 征 






景 地 图 


6DOF 关键 帧 \/ 


图 4.36 SLAM 系统 可 以 处 理 通 用 的 6 自由 度 运动 和 纯粹 的 旋转 运动 ， 其 优点 在 于 用 户 
不 被 局 限于 某 一 类 型 的 运动 上 。 当 和 额外 的 视点 可 用 时 ， 也 提供 了 从 全 景 特征 ( 蓝 
绿色 ) 中 恢复 三 维特 征 ( 品 红 色 ) 的 机 会 (由 Christian Pirchheim 提供 ) 


53% 成 功 
=3D 地 图 跟踪 
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98% 成 功 a 


a3D 地 图 跟踪 ”gg3D 或 全 景 地 图 跟踪 
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b) 

A437 任意 的 用 户 运动 中 6 自由 度 与 全 景 SLAM 的 结合 更 有 助 于 和 鲁 棒 的 跟踪 。a) 传 
统 的 6 A AE SLAM 仅仅 能 跟踪 53% 帧 中 的 位 姿 。b) AGA SLAM 可 以 跟踪 
98% 帧 中 的 位 姿 (由 Christian Pirchheim 提供 ) 





图 5.6 在 HMD 上 安装 一 个 朝 加 内 部 的 摄像 机 ， 可 以 用 来 检测 棋盘 图 案 的 : 
推导 出 眼球 相对 于 显示 器 的 位 置 和 方向 (由 Alexander Plopski 提供 ) 
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图 6.2 通过 单 目 深度 线索 隐喻 可 以 在 单 张 图 片 中 观察 到 场景 结构 


进而 





图 6.6 


a) 


a) b) 


通过 在 约 影 物体 的 投影 边 绿 附近 搜索 对 应 中 实物 体 的 边 绿 ，b) 可 以 修正 i 


nt (由 Stephen DiVerdi 提供 ) 


ue 





图 6.16” 球 谐 遇 数 是 球形 域 中 的 基 困 数 。 三 行 代表 了 球 谐 曙 数 的 0,1,2 波段 





图 6.17 “利用 教堂 模型 等 漫 反 射 物 体能 够 估计 定向 光 ， 并 应 用 到 昌 球 等 虚拟 物体 。 右 面 
的 列 显示 了 作为 立方 图 的 人 射 光 估计 。 通 过 环境 图 中 的 红 点 表示 如 何 改变 最 蝇 
的 光照 方 喇 ， 对 应 圆 项 上 白色 高 光 的 运动 (由 Lukas Gruber 提供 ) 





a) 局 部 光照 演 染 效果 b) 全 局 光照 演 染 效果 


图 6.21 实时 路 径 跟 踪 能 实现 真实 的 全 局 光照 (由 Peter Kan 提供 





a) b) 


图 6.25 a) 在 床下 面 的 龙 上 投射 的 软 阴 影 。b) 从 乒乓 球拍 到 漫画 人 物 的 脸 部 颜色 漫 射 
在 这 两 个 例子 中 ， 真 正 的 几何 和 光照 被 实时 重建 (由 Lukas Gruber 提供 ) 





图 6.30 ”风格 化 的 增强 现实 可 以 用 于 艺术 表现 ， 场 景 的 真实 和 虚拟 部 分 采用 了 相同 的 风 
a «SJR aa Si AR A Peter Kan 提供 ) 








a) 黄 车 b) 红 车 


图 7.6 a) 可 视 化 清晰 地 展示 了 车 内 部 情况 。b) 颜色 选择 不 当 严 重 影 啊 了 了 和谈 挡 部 分 可 视 
化 的 感知 效果 (由 Denis Kalkofen 提供 ) 
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图 7.7 Hydrosys 系统 展示 了 全 局 传感器 网 络 中 各 个 站 点 的 位 置 以 及 绘制 的 插值 温度 测 
线 轮廓 (由 Eduardo Veas 和 Ernst Kruijff 提供 ) 





图 7.9 在 没有 考虑 到 时 间 一 致 性 时 ， 旋 转 相 机 可 能 会 导致 两 个 标签 (图 中 用 红色 和 蓝 色 
箭头 标 出 ) 意外 斯 倒 顺序 (由 Markus Tatzgern 和 Denis Kalkofen 提供 ) 





图 7.13 ”本 例 中 ,真实 的 车 身 是 虚拟 发 动机 的 遮 项 物 。 在 提取 轮廓 作为 重要 的 形状 线索 
之 后 ,应 用 了 二 维 距 离 转换 来 使 得 遮蔽 物 看 起 来 更 为 大 实 (由 Denis Kalkofen 


nn / 


提供 ) 





图 7.14 ”将 具有 同 质 纹理 的 区 域 赋予 某 一 特定 透明 度 水 平 达到 一 致 效 采 的 和 X HY ZR FT ALAC 
技术 (由 Stefanie Zollmann 提供 ) 





a) b ) 


图 7.16 a) 使 用 基础 阴影 演 染 爆炸 约 影 。b) 使 用 视频 纹理 双重 幻影 泻 染 ， 可 视 像 素 爆 
炸 并 显示 黑色 的 育 景 像素 (由 Markus Tatzgern 和 Denis Kalkofen 提供 ) 





图 7.17 a) 错误 的 纹理 爆炸 幻影 。b) 同步 双重 幻影 泻 染 可 以 识别 不 能 被 视频 纹理 的 
像 K 省 对 这 些 像 Ze 使 用 不 同类 型 的 党 染 风 格 (由 Markus Tatzgern 和 Denis 
Kalkofen 提供 ) 





图 8.14 ”使 用 投影 机 — 援 人 峭 通 界面 转化 成 为 触摸 屏 ， 由 Claudio Pinhanea 提 
BE (IBM 版 权 所 有 ，2001 ) 
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图 8.29 能够 同时 看 到 墙 面 投影 上 的 第 一 人 称 视图 以 及 通过 头 戴 显 示 占 看 到 的 第 三 人称 
视图 (由 Gerd Hesina 和 Anton Fuhrmann 提供 ) 


Region Annotation Mode 





图 9.2 通过 在 第 一 人 称 视图 中 指定 两 个 维度 并 在 对 应 的 航空 图 像 (左下 角 的 插图 ) 中 指 
定 第 三 个 维度 (距离 ) 创建 示例 注释 。 在 这 种 情况 下 ， 区 域 注释 被 演 染 为 线 框 包 
围 盒 





a) b) C ) 
图 9.11 a) 来 自 RGBD 传感器 的 简单 场景 视图 。b) 利用 深度 图 像 分 割 的 平面 ,ce) JL 
何 场 景 理解 检测 的 直线 边缘 (如 黄 线 所 示 ) 和 平行 平面 (以 相同 的 颜色 显示 ) 


(Thanh Nguyen 提供 ) 





图 10.1 Heidentor ( 异 教徒 之 门 ) 是 一 处 公元 4 世纪 的 罗马 废墟 ， 位 于 奥地利 东部 。 本 
图 示 出 一 个 利用 多 媒体 信息 进行 增强 的 缩放 模型 。 用 户 通 过 红色 射线 选择 了 中 


由 部 分 ， 因 此 弹出 一 幅 历 史上 照片 (由 Florian Ledermann 提供 ) 





a) b) C ) 
图 10.5 ”将 一 个 咖啡 机 的 印刷 说 明 指 南通 过 增强 现实 展示 的 结果 。a) 化 身 表 明了 用 户 的 


观察 视角 。b) ~ c) 当 用 户 移动 到 指定 位 置 后 ， 门 将 打开 并 示 出 咖啡 酿造 单元 ， 
如 图 中 黄色 部 分 所 示 (由 Peter Mohr 提供 ) 





图 11.1 路 标 系 统 让 户外 增强 现实 用 户 沿 着 航线 点 组 成 的 路 线 前 进 (红色 柱 )( 由 Gerhard 
Reitmayr 提供 ) 
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图 11.8 





a) 全 有 明 图 的 外 观 随 着 入 轴 观 察 方向 而 变化 。b) 黄色 圆圈 将 用 户 引 导 至 特定 


的 观看 方 回 ， 通 过 角度 和 到 馅 人 饼 切 片 可 视 化 的 中 心 距 离 进 行 编 公 (由 Andreas 


Hartl 提供 ) 
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图 11.2 室内 路 标 系 统 
(由 Daniel Wagner 提供 ) 


高 亮 显 示 路 径 上 的 下 一 个 门口 并 显示 指向 最 终 目 的 地 的 三 维 箭 头 





图 11.9 ”黄色 金字 塔 图 标示 出 了 对 应 图 像 序列 的 摄像 机 平 截 头 体 (由 Clemens Arth 提供 ) 
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图 11.12 ”世界 缩 略 图 可 以 连接 到 手持 或 臂 架 式 道 具 (由 Gerhard Reitmayr 提供 ) 
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3D 鼠标 


虚拟 对 象 


图 12.1 一 个 共享 空间 装置 ， 用 户 能 够 佩戴 头 戴 式 显示 器 在 虚拟 物体 上 构造 如 图 中 所 示 
的 数学 可 视 化 的 个 人 视图 (由 Anton Fuhrmann 提供 ) 





图 12.11 a) 一 个 喜 洲 于 大 学 校园 内 的 室外 用 户 〈 从 一 个 头 戴 式 显示 器 中 观看 ) : 
个 为 移动 用 户 提供 行进 路 线 的 静止 用 户 〈 虚 拟 现 实 视图 ) 之 间 的 协作 (由 哥 伦 
比 亚 大 学 提供 ) 





b ) 
rar 一 种 在 投影 加 面 上 ， 田 一 种 在 笔记 本 电脑 屏幕 
用 户 选 择 一 只 绵 半 并 在 个 人 数字 助理 上 面 仔细 检视 (由 Gudrun Klinker 


an ) 
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图 13.9 SABE ee Re JERALA BL AB BA PY SK a bas AP AY SAS De A ENT A 
图 。 当 用 户 在 建筑 物 中 漫游 时 ， 建 筑 模 型 的 微型 世界 视图 和 位 置 相关 的 平视 显 
示 合 登 加 图 像 共 同 呈 现 给 用 户 


出 版 者 的 话 


Augmented Reality: Principles and Practice 


文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 目 然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 和 目 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 " 。 目 1998 年 开始 ,我们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 展 
好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 骤 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy , 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 从 书 ” 为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格 幸 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指导 ， 还 不 辞 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
500 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 有 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ,我们 的 目标 是 尽 善 鲜 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 谈 者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 ，www.hzbook.com 

电子 邮件 ，hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 ] 号 华章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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Augmented Reality: Principles and Practice 


在 过 去 的 20 年 里 ， 信 息 技 术 的 应 用 从 固定 的 办 公 室 和 桌面 计算 转移 到 网 络 、 社 交 媒 体 
和 移动 计算 。 近 年 来 ， 即 使 将 笔记 本 电脑 归 和 桌面 式 电 脑 的 类 别 ， 智 能 手机 和 平板 电脑 的 销 
量 也 远 超 传统 茧 面 式 电脑 。 

虽然 目前 主流 用 户 界 面 还 没有 完全 从 20 世纪 90 年 代 的 桌面 计算 (或 者 说 是 1981 Xerox 
Star) 中 脱离 出 来 ， 但 是 当今 年 轻 一 代 获 取 计 算 机 知识 的 方式 已 经 改变 : 各 种 应 用 和 云 计 算 
在 许多 情况 下 取代 了 电脑 桌面 。 计算 已 经 从 一 项 在 办 公 室 或 书房 中 开展 的 工作 转变 为 随时 随 
地 进行 的 活动 。 


Ai ATS RM SKE 


随 着 用 户 逐 渐 远 离 电 脑 桌 面 ， 将 真实 世界 融 人 我 们 的 计算 体验 变 得 越 来 越 重 要 。 考 虑 到 
真实 世界 既 不 是 平面 的 ， 也 不 是 由 书写 文档 组 成 的 ， 因 此 必须 有 一 个 新 的 用 户 界 面 隐喻 。 增 
强 现 实 (Augmented Reality, AR) 有 潜力 成 为 用 于 情境 计算 的 主流 用 户 界 面 隐喻 。 增 强 现实 
具有 能 将 真实 世界 和 与 之 相关 的 虚拟 信息 直接 关联 的 独特 性 质 。 整 个 世界 变 成 了 用 户 界 面 ， 
这 引出 了 那 句 熟悉 的 宣言 : 

回 到 真实 世界 ! 

虚拟 现实 (Virtual Reality, VR) 的 愿景 是 将 我 们 上 自身 沉浸 于 人 造 世界 ， 这 推动 了 游戏 
设备 的 发 展 ， 带 来 了 令 人 惊艳 的 画面 效果 ， 随 之 而 来 的 是 各 类 头 戴 式 显示 顺和 手势 跟踪 需 的 
出 现 。 但 即便 如 此 ， 像 虚拟 现实 这 样 通过 定义 来 独占 大 众 注意 力 的 用 户 界 面 隐喻 ， 也 不 一 定 
是 日 常 计算 的 最 佳 选 择 。 

相反 ， 我 们 越 来 越 依 赖 可 以 随意 使 用 并 能 提供 容易 理解 的 少量 信息 的 计算 界面 。 我 们 需 
要 普 适 计算 。 这 可 以 通过 “宁静 ”的 计算 过 程 实 现 ， 这 一 过 程 会 在 后 台 进 行 ， 不 需要 用 户 干 
涉 ， 甚 至 根本 不 会 引起 用 户 的 注意 。 在 需要 普 适 交互 时 ， 增 强 现实 脱颖而出 ， 成 为 合适 的 用 
户 界面 技术 。 


为 何 与 作 本 书 


多 个 相互 交叉 的 研究 领域 聚焦 于 增强 现实 的 发 展 ， 相 关 的 知识 体系 也 在 快速 完善 。 月 
20 世纪 90 ERAK, 我们 一 直 以 研究 者 的 身份 致力 于 该 知识 体系 的 相关 工作 。 本 书 的 主要 
动力 来 自我 们 所 任教 的 格拉 茨 理工 大 学 和 加 州 大 学 圣 巴巴 拉 分 校 关 于 增强 现实 的 课 答 教学 。 
在 备课 过 程 中 ， 我们 明显 感到 目前 没有 一 本 教材 能 够 覆盖 这 个 快速 发 展 领域 的 广度 和 深度 。 
从 2001 年 的 SIGGRAPH 会 议 开始 ， 各 种 学 术 会 议 及 研讨 会 的 部 分 演讲 稿 都 为 备课 提供 了 参 
考 ， 我 们 也 参与 组 织 了 其 中 的 一 些 会 议 。 许 多 基础 理论 从 那 时 起 逐渐 构建 起 来 ， 我 们 着 眼 于 
系统 地 汇集 相关 知识 ， 同 时 注重 新 兴 概 念 与 实践 信息 。 因 此 ， 这 本 书 诞生 了 了 。 


本 书 主要 内 容 
如 书 名 所 示 ， 本 书 在 原理 和 实践 之 间 力 求 平衡 。 我 们 的 目标 是 让 这 本 书 既 能 服务 于 科 


学 研究 人 员 ， 又 能 服务 于 对 增强 现实 应 用 感 兴趣 的 从 业者 ， 特 别 是 工程 师 。 因 此 ， 本 书 既 
可 用 作 教材 ， 又 可 用 作 参 考 读 物 。 为 了 充分 利用 本 书 ， 读 者 需要 对 计算 机 科学 有 基本 认 
识 ， 如 有 果 能 够 了 解 计 算 机 图 形 学 以 及 计算 机 视 党 领域 的 相关 知识 ， 或 者 对 其 感 兴趣 ， 会 对 
理解 本 书 有 所 帮助 。 考 虑 到 篇 幅 的 限制 ， 我 们 无 法 进一步 提供 必要 背景 技术 的 特定 细节 ， 
而 是 给 出 了 参考 文献 。 与 此 同时 ， 本 书 谨慎 地 介绍 并 清楚 地 解释 了 超出 基础 知识 的 特定 增 
强 现 实 概念 ， 从 而 使 本 书目 成 体系 。 本 书 采 用 下 面 的 篇 章 顺 序 来 介绍 增强 现实 的 技术 和 基本 
方法 。 

第 1 革 为 本 书 欧 定 基调 ,介绍 增强 现实 的 定义 ,简略 讲述 该 领域 的 历史 ， 之 后 市 领 读者 
领略 这 项 强大 的 真实 世界 用 户 界 面 技术 的 多 种 应 用 实例 。 小 结 部 分 介绍 了 一 系列 相关 技术 和 
研究 领域 的 全 景 。 

第 2 章 的 主题 是 显示 技术 ， 这 是 增强 现实 的 关键 基础 技术 之 一 。 根 据 视觉 感知 的 基础 理 
论 ， 讨 论 了 各 种 适用 于 增强 现实 的 显示 技术 ,尤其 是 头 戴 式 显示 、 手 持 式 显示 和 投影 式 显 
Ro 我 们 还 讨论 了 非 视觉 显示 技术 ， 如 听觉 和 触觉 设备 等 。 

第 3 章 的 主题 是 跟踪 技术 ， 这 是 增强 现实 的 潜在 核心 技术 之 一 。 首 先 讨论 了 理解 跟踪 
(广义 的 定义 是 测量 系统 ) 的 工作 原理 所 需要 掌握 的 特定 知识 ， 然 后 讨论 了 传统 的 固定 跟踪 
系统 ， 并 将 其 与 移动 传 感 融 进行 比较 。 接 下 来 ， 着 重 介 绍 了 主流 的 光学 跟踪 技术 ， 并 在 最 后 
阐述 了 传 感 融 融合 的 原理 。 

第 4 章 继 续 上 一 半 中 对 光学 跟踪 问题 的 讨论 ， 详细 介绍 了 用 于 实时 位 姿 估计 的 计算 机 视 
觉 算法 ,例如 根据 观测 图 像 确定 摄像 机 的 位 置 与 朝 回 。 为 了 便于 讲解 并 使 读者 更 广泛 地 
了 解 背 景 知识 ， 这 一 草 由 一 系列 案例 研究 组 成 。 每 一 个 案例 研究 仅 介 绍 目 喘 必需 的 相关 
知识 ， 所 以 读者 不 需要 事先 深入 了 解 计算 机 视觉 方面 的 知识 。 此 外 ， 本 书 对 涉及 高 等 数 
学 的 问题 做 了 标记 ， 这 些 问 题 在 实践 中 通常 依赖 OpenCV 等 软件 库 来 解决 ， 因 此 可 以 被 视 为 
“黑箱 ”， 不 想 深 入 研究 的 谈 者 可 略 过 这 部 分 内 容 。 

第 5 章 讨 论 用 于 增 踢 现实 的 硕 件 标定 和 注册 方法 。 在 增强 现实 应 用 中 , 第 3 草 所 述 的 用 
于 光学 跟踪 的 数字 摄像 机 标定 技术 是 实现 可 重复 精确 操作 的 必要 前 提 。 注 册 是 几何 上 校准 增 
强 现实 体验 中 的 真实 世界 和 虚拟 世界 的 过 程 ， 从 而 有 利于 形成 一 致 混合 环境 的 错觉 。 

第 6 章 聚 焦 于 使 真实 和 虚拟 物体 无 颖 融合 的 一 系列 计算 机 图 形 技 术 ， 包 括 虚 拟 和 真实 物 
体 之 间 正 确 的 遮挡 或 阴影 关系 。 我 们 也 解释 了 消 隐 现实 ， 即 消 隐 场景 中 的 真实 物体 ， 并 讨论 
了 物理 摄像 机 的 仿真 。 

第 7 章 关 注 可 视 化 技术 ， 目 的 是 使 信息 更 容易 理解 。 在 增强 现实 环境 中 ， 这 意味 者 几 
何 注册 到 真实 场景 物体 上 的 计算 机 生成 信息 ， 必 须 按 照 便 于 用 户 理解 的 方式 摆 放 和 设计 。 
我 们 同时 探讨 了 二 维 增强 (如 文本 标签 ) 和 三 维 增强 〈 如 物体 内 部 的 合成 视图 ， 也 称 作 “ 重 
We do 
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览 到 全 面 的 三 维 交 互 。 我 们 特别 讨论 了 基于 工具 、 窗 口 部 件 和 手势 的 交互 ， 以 及 增强 现实 与 
多 种 形式 的 可 触摸 用 户 界 面 之 间 的 联系 。 我 们 也 探讨 了 用 于 增强 现实 的 多 模 态 和 基于 智能 体 
的 界面 。 

第 9 章 讨 论 交 互 式 建 模 问 题 ， 也 就 是 通过 增强 现实 创建 新 的 几何 内 容 。 内 肉 于 三 维 环境 
中 的 用 户 界 面 ， 为 再 创造 该 环境 的 数字 版 本 提供 了 一 种 有 效 方 法 ， 这 种 能 力 对 于 所 有 涉及 视 
党 计算 的 应 用 都 是 非常 宝 贯 的 。 
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第 10 章 讨 论 增强 现实 的 开发 方法 。 增 强 现实 呈现 的 内 容 和 信息 库 需 要 按照 当前 网 络 
内 容 的 开发 方式 来 设计 和 创造 。 可 以 运用 传统 工具 开发 增强 现实 的 内 容 ， 或 者 在 增强 现实 
本 身 中 进行 。 开 发 需 关 注 应 用 中 超越 几何 和 视觉 特性 的 几 个 方面 ， 特 别 是 建造 应 用 的 语义 
和 行为 。 开 发 应 该 由 内 容 驱动 ,不 需要 或 者 只 需要 少量 的 传统 编程 工作 。 我 们 讨论 了 多 
种 满足 这 个 需求 的 方法 ， 并且 探 究 了 将 增强 现实 开发 和 新 兴 的 开放 网 络 标准 相 结 合 的 一 
些 新 成 有 果 。 

第 11 章 讨 论 漫游 ， 这 是 增强 现实 作为 用 户 界 面 尤 为 相关 的 一 个 领域 。 陌 生 环境 中 的 定 
向 问题 是 移动 信息 系统 应 用 中 的 一 项 重要 挑战 。 我 们 概述 了 运用 增强 现实 技术 实施 的 漫游 技 
术 ， 并 将 它们 与 数字 地 图 加 以 比较 。 

第 12 章 研 究 协 作 问 题 。 作 为 一 种 媒介 ， 增 强 现实 在 个 体 之 间 的 交流 中 有 强大 的 应 用 洪 
力 。 这 既 包 含 同 地 协作 (通过 共享 增强 现实 系统 提供 的 附加 提示 拓展 同 地 协作 )， 也 包含 远 
EUME (在 增强 现实 技术 的 大 力 支 持 下 提供 了 了 远程 呈现 的 新 形式 )。 

第 13 章 分 析 增 强 现实 系统 的 底层 架构 。 增 强 现实 必须 将 实时 系统 、 多 媒体 系统 以 及 分 
布 式 系统 的 复杂 需求 结合 起 来 。 通 过 一 种 灵活 的 方式 将 这 些 需 求 结合 起 来 并 准确 传达 给 程序 
员 ， 是 一 项 困难 的 工作 。 我 们 讨论 了 多 种 架构 模式 ， 包 括 分 布 式 对 象 系统 、 数 据 流 系 统 和 场 
景 图 ， 并 展示 了 一 系列 案例 学 习 。 

第 14 章 回 顾 增强 现实 的 发 展 轨迹 ， 从 一 个 在 原型 应 用 中 体现 实用 性 的 研究 领域 ， 到 洪 
在 的 大 众 消费 级 应 用 。 我 们 同时 分 析 了 需要 克服 的 障碍 和 吸 答 解决 的 问题 ， 基 于 本 书 提 供 的 
材料 展望 了 未 来 发 展 趋势 ， 并 总 结 了 未 来 的 研究 内 容 。 


如 何 使 用 本 书 及 相关 资料 


如 何 使 用 本 书 取决 于 你 与 增强 现实 领域 之 间 的 关系 ， 以 及 你 的 兴趣 程度 和 关注 点 。 我 们 
讨论 三 种 可 能 的 角色 。 

@ 如 果 你 是 一 名 开发 者 : 专业 开发 者 可 以 从 本 书 中 得 到 启发 ， 并 用 于 指导 增强 现实 应 用 
的 设计 、 搭 建 和 评测 。 有 此 类 背景 的 读者 将 在 讨论 显示 、 跟 中 和 交互 的 章节 找到 关 
于 硬件 设备 的 有 用 信息 。 在 应 用 内 容 的 开发 方面 ， 视 觉 一 致 性 、 情 境 可 视 化 和 开发 
章节 将 会 有 所 帮助 ， 而 跟踪 、 计 算 机 视觉 和 标定 与 注册 章节 将 涉及 相应 的 注册 技术 。 
在 交互 及 后 续 章 节 中 介绍 了 用 户 界面 设计 。 最 后 ， 软 件 架 构 章 节 提 供 了 关于 具体 实施 
工作 的 重要 信息 。 

如 果 你 是 一 名 教师 : 本 书 可 作为 不 同类 型 和 层次 的 大 学 教材 。 关 于 增强 现实 的 研究 生 
课程 可 将 本 书 作为 主教 材 。 关 于 计算 机 图 形 学 或 视觉 计算 的 课程 可 使 用 视觉 一 致 性 
和 可 视 化 章节 作为 增强 现实 图 形 学 方面 的 导论 。 关 于 计算 机 视觉 的 课程 可 使 用 跟踪 
和 标定 与 注册 章节 讲授 重要 的 实时 计算 机 视觉 技术 。 人 机 交互 课程 可 使 用 交互 、 建 
模 、 开 发 、 漫 游 及 协作 章节 全 面 地 介绍 增强 现实 的 概念 。 

如 果 你 是 一 名 研究 者 : 对 于 兴趣 点 为 实验 性 增强 现实 应 用 的 开发 和 评测 的 研究 者 来 
”说 ， 本 书 可 作为 一 本 详尽 的 参考 指南 。 最 后 一 章 为 本 领域 的 研究 者 和 学 生 列 举 了 需 
要 解决 的 一 系列 重要 问题 。 
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本 书 网 站 


本 书 网 站 如 下 : 

http://www.augmentedrealitybook.org © 

增强 现实 领域 正在 迅速 发 展 。 为 了 使 本 书 成 为 动态 的 工作 文档 ， 网 站 上 提供 了 教学 资料 
等 附加 信息 ， 并 且 包 含 与 最 新 增强 现实 研究 和 应 用 相关 的 信息 和 链接 。 这 是 一 项 开放 工作 ， 
欢迎 读者 为 资料 收集 做 出 贡献 ， 你 的 贡献 将 帮助 我 们 更 新 网 站 以 及 本 书 的 未 来 版 本 。 


日 ”该 网 站 及 网 站 内 的 资源 由 原 书 作者 维护 并 提供 ， 资源 的 获取 、 使 用 请 遵循 网 站 要 求 ， 我 社 不 对 网 站 内 容 
的 可 获取 性 、 准 确 性 、 安 全 性 等 负责 ， 亦 不 承担 任何 法 律 责任 。 一 一 编辑 注 
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Augmented Reality: Principles and Practice 


增强 现实 介绍 





虚拟 现实 正 变 得 越 来 越 受 欢迎 ， 随 着 计算 机 图 形 学 的 发 展 ， 计 算 机 图 像 与 真实 世界 经 党 
是 难以 区 分 的 。 然 而 ， 在 游戏 、 电 影 和 其 他 媒体 中 计算 机 生成 的 图 像 是 和 我 们 周围 的 物理 环 
境 分 离 的 。 这 是 一 个 优点 〈 一 切 篆 有 可 能 )， 但 同时 又 带 来 了 限制 。 

这 个 限制 源 于 在 日 常生 活 中 我 们 主要 对 真实 世界 而 不 是 某 一 虚拟 世界 感 兴趣 。 智 能 手机 
和 其 他 移动 设备 给 我 们 提供 了 随时 随地 访问 海量 信息 的 途径 ， 然 而 ， 这 种 信息 通常 是 与 现实 
世界 分 离 的 。 用 户 对 获取 来 自 和 关于 真实 世界 的 在 线 信 息 ， 或 者 将 在 线 信 息 与 真实 世界 相 联 
系 感 兴趣 ， 但 目前 只 能 单独 并 且 间 接地 进行 ， 这 需要 用 户 付出 持续 的 认 知 努力 。 

在 许多 方面 ， 增 强 移动 计算 使 得 与 真实 世界 的 关联 自动 发 生 ， 这 是 一 个 有 吸引 力 的 想 
法 。 以 下 几 个 例子 可 以 很 容易 地 说 明 这 个 想法 的 吸引 力 。 基 于 位 置 的 服务 可 以 提供 基于 全 球 
定位 系统 (GPS) 的 个 人 导航 ， 条 形 码 扫描 器 可 以 帮助 识别 图 书馆 中 的 书 或 超市 中 的 商品 。 
然而 ， 这 些 方法 需要 用 户 的 特定 动作 ， 并且 粒 度 相 当 粗 米 。 条 形 码 可 用 于 识别 书籍 ， 但 不 适 
用 于 在 户外 旅行 的 时 候 标 识 山峰 的 名 称 ; 同样 ， 条 形 码 也 不 能 帮助 识别 竺 维修 手表 的 微小 部 
件 ， 更 不 用 说 在 手术 过 程 中 的 解剖 结构 。 

增强 现实 能 够 在 物理 世界 和 电子 信息 之 间 创 建 直 接 、 目 动 和 可 操作 的 链接 ， 为 电子 增强 
的 物理 世界 提供 一 个 简单 直接 的 用 户 界 面 。 当 我 们 回顾 人 机 交互 中 最 近 的 几 个 里 程 碑 (万 维 
网 和 社交 网 络 的 出 现 以 及 移动 设备 革命 ) 时 ， 作 为 范式 转换 的 用 户 界 面 隐喻 凸显 了 增强 现实 
的 巨大 潜力 。 

这 一 系列 里 程 碑 的 轨迹 是 清晰 的 : 首先 ， 在 线 信息 的 访问 迅速 增长 ， 产生 了 大 量 的 信息 
消费 者 。 这 些 消 费 者 随 之 成 为 信息 生产 者 并 彼此 交流 ， 最 终 被 赋予 在 任何 情况 下 从 任何 地 点 
管理 这 种 交流 的 手段 。 但 是 ， 进 行 信息 检索 、 创 作 和 交流 的 物理 世界 难以 与 用 户 的 电子 活动 
直接 连接 。 也 就 是 说 ， 该 模型 陷 人 了 一 个 不 直接 涉及 物理 世界 的 抽象 网 页 和 服务 的 世界 里 。 
在 基于 位 置 的 计算 和 服务 领域 已 经 出 现 了 许多 技术 进步 ， 这 有 时 被 称 为 情境 计算 。 即 使 如 
此 ， 基 于 位 置 服务 的 用 户 界面 仍然 主要 根植 于 茧 面 、 应 用 程序 和 基于 网 络 的 使 用 范例 。 

增强 现实 可 以 改变 这 种 情况 ， 并 且 这 样 做 可 以 重新 定义 信息 浏览 和 创作 的 方式 。 这 个 用 
户 界面 隐喻 和 它 的 使 能 技术 形成 在 计算 机 科学 和 应 用 开发 中 最 迷人 和 面向 未 来 的 一 个 领域 。 
增强 现实 可 以 将 计算 机 生成 的 信息 覆盖 在 真实 世界 的 视图 上 ， 以 惊人 的 新 方式 扩大 人 类 的 感 
知 和 认 知 。 

在 提供 增强 现实 的 工作 定义 之 后 ， 我 们 将 简要 回顾 该 研究 领域 历史 上 的 重要 进展 ， 然 后 
介绍 各 种 应 用 领域 的 具体 案例 ， 以 展示 这 种 物理 用 户 界面 隐喻 的 能 力 。 


1.1 MASH 
虚拟 现实 (VR) 将 用 户 置 于 一 个 完全 由 计算 机 生成 的 环境 内 ， 而 增强 现实 (AR) SEE 


现 直接 注册 到 物理 环境 的 信息 。AR 超越 了 移动 计算 ， 在 空间 和 认 知 上 架 起 了 虚拟 世界 和 真实 
世界 之 间 的 桥梁 。 借 助 AR， 至 少 在 用 户 的 感觉 上 数字 信息 似乎 已 经 成 为 真实 世界 的 一 部 分 。 


2 a 


染 起 这 座 桥 染 是 一 个 宏伟 的 目标 一 一 需要 借助 许多 来 自 计 算 机 科学 领域 的 知识 ,但 可 能 
导致 对 AR 真正 是 什么 的 误解 。 例 如 ,许多 人 将 虚拟 和 真实 元 素 的 视觉 组 合 想象 为 《 侏 罗 纪 
公园 》 和 《 阿 凡 达 》 等 电影 中 的 特效 。 虽然 电影 中 使 用 的 计算 机 图 形 技 术 也 可 以 用 于 AR, 
但 电影 缺少 AR 的 一 个 关键 特征 一 一 交互 性 。 为 了 避免 这 种 误解 ， 我 们 需要 为 本 书 讨论 的 主 
题 设置 一 个 范围 。 换 句 话 说， 我 们 需要 回答 一 个 关键 问题 ,什么 是 AR ? 

最 广泛 接受 的 AR 定义 是 由 Azuma 在 1997 年 的 综述 论文 中 提出 的 。Azuma[1997] 认为 
AR 必须 具有 以 下 三 个 特征 : 

e 虚实 结合 

e 实时 交互 

e 三 维 注册 

这 个 定义 不 需要 头 戴 式 显 示 需 (HMD) 等 特定 输出 装置 ， 也 没有 将 AR 限制 到 视觉 媒 
体 。 尽 管 可 能 难以 实现 ， 听 觉 、 和 触觉 ， 甚 至 嗅觉 或 味觉 AR 均 包 括 在 这 个 范围 内 。 需 要 注意 
的 是 定义 中 强调 了 实时 控制 和 空间 注册 ， 意 味 痢 对 应 的 虚拟 和 真实 信息 的 精确 实时 对 准 。 这 
隐 含 着 AR 显示 的 用 户 至 少 可 以 执行 某 种 交互 式 视点 控制 ， 并 且 显 示 需 中 计算 机 生成 的 增强 
内 容 将 持续 地 注册 到 环境 中 的 参考 对 象 。 

虽然 实时 性 的 标准 可 能 会 随 着 个 体 、 任 务 或 应 用 的 变化 而 不 同 , 但 是 交互 性 意味 着 人 机 
界面 在 紧密 耦合 的 反馈 回路 中 操作 。 用 户 持 续 地 在 AR 场景 中 漫游 并 控制 AR 体验 ， 系 统 通 
过 跟踪 用 户 的 视点 或 位 姿 来 识别 用 户 的 输入 ， 在 将 真实 世界 中 的 位 姿 与 虚拟 内 容 配 准 后 向 用 
户 呈 现 情境 可 视 化 (注册 到 真实 世界 中 对 和 象 的 可 视 化 )。 

我 们 可 以 看 出 完整 的 AR 系统 至 少 需要 三 个 组 件 : 跟踪 组 件 、 注 册 组 件 和 可 视 化 组 件 。 
第 四 个 组 件 是 空间 模型 ( 即 数 据 库 )， 其 存储 关于 真实 世界 和 虚拟 世界 的 信息 ( 见 图 1.1 )。 
跟 踊 组 件 需 要 真实 世界 模型 作为 参照 ， 用 来 确定 用 户 在 真实 世界 中 的 位 置 。 虚 拟 世 界 模型 包 
含 用 于 增强 的 内 容 。 空 间 模 型 的 这 两 个 部 分 必须 配 准 在 同一 坐标 系 下 。 








情境 可 视 化 


图 1.1 AR 使 用 人 类 用 户 和 计算 机 系统 之 间 的 反馈 回路 。 用 户 观 察 AR 显示 并 控制 视点 ， 
系统 跟踪 用 户 的 视点 ， 在 真实 世界 中 配 准 虚拟 内 容 的 位 姿 ， 并 呈现 情境 可 视 化 


1.2 ”增强 现实 简 史 


尽管 我 们 可 以 回 诸 到 更 久远 的 时 光 找 到 将 信息 三 加 在 物理 世界 上 的 案例 ， 但 是 可 以 
明确 的 是 利用 计算 机 生成 的 信息 在 物理 世界 中 进行 注释 首次 出 现在 20 世纪 60 年 代 。Ivan 
Sutherland 开创 了 这 个 最 终 成 为 VR 和 AR 的 领域 。 他 于 1965 年 在 《终极 显示 》 一 文 提出 了 
以 下 著名 的 论断 : 


IB 32 M FF FB 3 


终极 显示 当然 应 该 是 一 个 房间 ， 在 这 样 的 房间 中 计算 机 可 以 控制 物体 的 存在 ， 显 示 
的 椅子 可 以 坐 下 ， 显 示 的 手 钱 可 以 将 你 束缚 ， 显 示 的 子弹 将 是 致命 的 。 通 过 适当 的 编 
程 ， 这 样 的 显示 可 以 真正 地 被 称 为 爱丽 丝 梦 游 的 仙境 。 
Sutherland[1965] 的 文章 不 仅 包 括 对 沉浸 式 显 示 沾 的 早期 摘 述 ， 还 包含 之 前 较 少 谈论 的 
AK AR 的 清晰 论断 
当今 视觉 显示 器 的 用 户 可 以 轻易 地 使 国体 透明 一 他 可 以 “透视 物体 ”1 4 
此 后 不 久 ，Sutherland 构建 了 第 一 套 VR 系统 。 他 在 1968 年 完成 了 第 一 个 头 戴 式 显示 器 


[Sutherland 1968]。 由 于 系统 较 重 ， 显 示 溺 必须 悬 币 在 天 花 板 上 ， 正 因 如 此 它 也 被 形象 地 称 
AY “SARE GE BR Ze" (OLA 1.2). Beda. ， 并 且 使 用 了 光学 透视 需 件 。 





图 1.2 ” 达 历 殉 里 斯 之 剑 是 世界 上 第 一 台 头 戴 式 显示 种 的 昵称 ， 构 建 于 1968 年 (由 Ivan 
Sutherland 提供 ) 


20 世纪 八 九 十 年 代 初 计算 性 能 的 进步 最 终 使 得 AR 成 为 一 个 独立 的 研究 领域 。 在 20 世纪 
七 八 十 年 代 ，Myron Krueger, Dan Sandin, Scott Fisher 和 其 他 研究 人 员 都 答 试 了 将 人 类 交互 
与 计算 机 生成 视频 看 加 的 交互 式 艺 术 体 验 的 请 多 概念 。 特 别 是 Krueger [1991] 在 其 1974 年 前 
后 的 Videoplace 装置 中 展示 了 参与 者 轮廓 之 间 三 加 的 协作 交互 式 图 形 注释 。 

1992 年 ,“ 增 强 现 实 ” 这 一 术语 诞生 。 这 一 术语 首先 出 现在 波音 公司 Caudell 和 
Mizell[1992] 的 工作 中 ， 他 们 通过 在 一 个 透视 式 HMD 中 显示 线束 装配 示意 图 来 协助 飞机 工 


TPA LA (WE 1.3). 





图 1.3 波音 公司 的 研究 人 员 使 用 透视 式 HMD 来 指导 飞机 线束 的 装配 (由 David Mizell 提供 ) 


H'A 


4 RIŽ 


1993 年 ，Feiner 等 人 [1993a] 提出 了 基于 知识 的 AR 系统 一 一 KARMA， 能 够 自动 推断 
修理 和 维护 过 程 中 的 合适 指令 序列 〈 见 图 1.4) 





a) h) 


图 1.4 a) KARMA 是 第 一 个 知识 驱动 的 AR 应 用 。b) 佩戴 HMD 的 用 户 可 以 看 到 打 
印 机 的 维护 说 明 (由 哥伦比亚 大 学 的 Steve Feiner, Blair MacIntyre 和 Doreé 


Seligmann 提供 ) 


同样 在 1993 年 ， 作 为 手持 式 AR MATE, Fitzmaurice 创建 了 第 一 个 手持 式 空 间 感知 显 
示 器 一 一 Chameleon， 它 包括 一 个 用 来 显示 SGI 图 形 工 作 站 视频 输出 AEE FP TU an ie AS 
(LCD) BRR, FPA EPR RI HET AIRE. ASHE EP REJA iba EF 
文 信 息 ， 例 ne t bE EHH EAN 

1994 年 ， 来 自 北 卡罗来纳 大 学 教堂 山 分 校 的 State 等 人 提出 了 一 个 引 人 注 目的 医疗 AR 
应 用 ， 能 够 让 医生 直接 观察 孕妇 腹 中 的 胎儿 ( 见 图 1.5 )。 尽 管 时 至 今日 将 计算 机 图 形 精确 注 
册 在 人 体 等 可 变形 对 象 上 仍然 是 一 个 挑战 ， 但 这 种 开创 性 的 工作 展示 了 AR 应 用 于 医学 和 其 
他 精细 任务 的 潜力 








图 1.5 怀孕 母亲 子宫 内 的 视图 (由 北 卡 罗 来 纳 大 学 教 党 山 分 校 Andrei State 提供 ) 


20 世纪 90 年 代 中 期 RTF BEARS EY Steve Mann 搭建 并 实验 了 “现实 的 介 
导 ” 一 一 一 个 市 有 视频 透视 式 HMD (改造 的 Virtual Research Systems 公 ce VR4 ) WEE 
计算 机 ， 使 得 用 户 可 以 增强 、 改 变 或 消减 现实 完 曲 。 通 过 开展 WearCam 项 目 ，Mann [1997] 
探 和 了 可 和 穿戴 计算 和 和: 介 导 现实 他 的 工作 最 终 帮 助 建立 了 在 早期 阶段 与 AR 有 很 多 协同 的 可 
穿戴 计算 学 术 领 域 [Starner et al. 1997]. 

Rekimoto 和 Nagao 在 1995 年 创造 了 第 一 个 真正 的 系 留 手 持 式 AR Emé. MITE 
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NaviCam 与 一 个 工作 站 连接 ， 配 备 了 一 个 前 向 摄像 机 。 系 统 通过 视频 输入 检测 摄像 机 图 像 
中 的 彩色 编码 标志 点 ， 并 在 视频 透视 视图 上 显示 全 加 信息 。 

Schmalstieg 等 人 在 1996 年 开发 了 第 一 套 协作 式 AR 系统 一 一 Studierstube ， 信 助 该 系统 
多 个 用 户 可 以 在 同一 共享 空间 中 体验 虚拟 对 象 。 由 于 每 个 用 户 佩 戴 一 个 被 跟 踩 的 HMD， 因 
而 可 以 从 其 个 人 的 视角 看 到 透视 关系 正确 的 立体 图 像 。 与 多 用 户 VR 不 同 ， 在 该 系统 中 虚拟 
内 容 以 干扰 最 小 的 方式 被 添加 到 传统 的 协作 情境 中 ， 因 此 在 Studierstube PIR. BAAS 
和 手势 等 自然 交互 线索 的 使 用 没有 受到 影响 。 该 系统 的 一 个 应 用 是 几何 教学 [Kaufmann and 
Schmalstieg 2003]， 已 经 成 功 地 在 中 学 生 中 进行 了 测试 ( 见 图 1.6). 





图 1.6 Studierstube 系统 的 应 用 之 一 是 通过 AR 问 中 学 生 讲授 几何 学 (由 Hannes Kaufmann 提供 ) 


从 1997 年 到 2001 年 ， 日 本 政府 和 佳能 公司 联合 资助 了 作为 一 个 临时 研究 团队 的 混合 现 
实 系 统 实验 室 。 这 是 迄今 为 止 与 混合 现实 (MR) 有 关 的 最 大 的 工业 研究 机 构 [Tamura 2000] 
[Tamura et al.2001]。 其 最 早 越 的 成 就 是 设计 了 第 一 个 同 轴 立 体 视 频 透 视 式 HMD——COASTAR.. 
实验 室 的 许多 研究 是 针对 数字 娱乐 市 场 进行 的 ( 见 图 1.7 )， 在 日 本 起 了 非常 重要 的 作用 。 





图 1.7 RV-Border Guards 是 佳能 的 混合 现实 系统 实验 室 开 发 的 多 用 户 射 击 游戏 (由 


Hiroyuki Yamamoto 提供 ) 
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1997 年 ，Feiner 等 人 在 哥伦比亚 大 学 开发 了 第 一 个 户外 AR 系统 漫游 机 ( 见 图 

)。 漫 游 机 使 用 带 有 GPS 和 姿态 跟踪 的 透视 式 HMD， 为 了 在 移动 过 程 中 输出 三 维 图 

系统 包括 一 个 内 装 计算 机 和 各 种 传感器 的 双肩 书包 ， 并 采用 一 个 早期 的 平板 电脑 进行 
输入 [Feiner et al. 1997] [Höllerer et al.1999b] 





a) b) 


图 1.8 a) 漫游 机 是 第 一 个 户外 AR 系统 。b) 运行 在 1999 版 漫游 机 上 AR 校园 导 览 的 
情境 纪实 图 像 (由 哥伦比亚 大 学 提供 ) 





仅仅 一 年 后 ，Thomas 等 在 1998 年 发 表 了 他 们 构建 的 户外 AR 导航 系统 
Hat. ‘EAA ine Tinmith〈 很 少 有 人 知道 这 个 名 字 实 际 Ł 是 “This is not map in the hat” fy 
首 字 母 缩 略 词 ) 演变 成 一 个 着 名 的 户外 AR 实验 平台 。 这 个 平台 可 用 于 3D 测量 等 高 级 应 用 ， 
但 最 : 著名 的 是 提供 共 了 第 一 个 户外 AR UFR rita 见 图 1.9 ) 这 个 游戏 是 流行 的 第 
人 称 射击 应 用 Quake 到 Tinmith 的 端口 ， 在 一 个 丰 正 的 停车 场 里 把 用 户 置 于 伪 尸 攻击 中 


Map-in-the- 





图 1.9 第 一 个 户外 AR 游戏 ARQuake 的 屏幕 截图 (由 Bruce Thomas 和 Wayne Piekarski 提供 ) 
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同一 年 ， XARF KRAK FACE LURE Raskar 等 人 [1998] 提出 了 未 来 办 公 室 一 一 
一 个 围 纸 纺 构 光 扫 摘 和 投影 机 — 摄像 机 系统 的 想法 构建 的 和 程 呈现 系统 。 尽 管 所 需 的 硬件 在 
当时 还 无 法 用 于 日 党 场景 ， 但 深度 传 感 希 和 投影 机 -摄像 机 耦合 等 相关 技术 已 在 当今 的 AR 
和 其 他 领域 中 发 挥 了 重要 作用 。 

在 1999 年 之 前 ， 没 有 出 现 可 以 供 非 专业 研究 人 员 使 用 的 AR 软件 。 当 Kato 和 Billinghurst 
[1999] 发 布 第 一 个 用 于 AR 的 开源 软件 平台 ARToolKit 时 ， 这 一 情况 发 生 了 变化 。 它 的 特点 
是 使 用 易于 激光 打印 的 黑 日 标志 点 3D 跟 踊 库 ( 见 图 1.10 )。 这 个 巧妙 的 软件 设计 与 日 渐 容 
易 获 取 的 网 络 摄像 头 相 结合 ， 使 得 ARToolKit 得 到 了 广泛 的 应 用 。 





图 1.10 用 户 手持 的 AR 通用 开源 软件 架构 ARToolKit 的 正方 形 标 记 (由 Mark Billinghurst 提供 ) 


同年 ， 德 国联 邦 教育 和 研究 部 启动 了 一 项 名 为 ARVIKA (应 用 于 开发 、 生 产 和 服务 的 
增强 现实 ) 的 2100 万 欧元 的 工业 AR 项 目 , 来 目 工 业界 和 学 术 界 的 20 多 个 人 研究 小 组 针对 工 
业 应 用 ， 特别 是 德国 汽车 工业 应 用 的 先进 AR 系统 共同 开展 研究 工作 。 该 计划 提高 了 全 球 对 
AR 在 专业 领域 应 用 的 认识 ， 几 个 类 似 的 计划 随 之 展开 ， 同 样 引 在 强化 AR 技术 的 工业 应 用 。 

男 一 个 值得 注意 的 想法 同样 出 现在 20 世纪 90 年 代 后 期 IBM 研究 员 Spohrer [1999] 在 
Worldboard 上 发 表 了 其 在 荚果 先进 技术 集团 工作 时 首次 提出 的 一 个 用 于 超 链 接 空间 配 准 信 息 
HI Ay Sq ZR Ry, AT aE AR 浏览 大 的 第 一 个 概念 。 

2000 年 以 来 ， 蜂 需 电 话 和 移动 计算 发 展 迅速 。2003 年 ，Wagner 和 Schmalstieg 展示 了 
第 一 套 上 自主 运行 在 “个 人 数字 助理 ”( 智 能 手机 的 前 身 ) 上 的 手持 式 AR 系统 。 一 年 后 ， 数 以 
生计 的 参观 者 在 SIGGRAPH 新 兴 技 术 展 会 现场 体验 了 多 用 户 手持 式 AR 游戏 
Train (Ll 1.11 ) [Pintaric et al. 2005]. 





Invisible 








图 1.11 Invisible Train 是 一 个 手持 式 AR 游戏 ， 其 特色 在 于 虚拟 火车 运行 在 真正 的 木 制 
轨道 上 (H Daniel Wagner 提供 ) 
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直到 2008 年 才 出 现 了 第 一 个 丰 正 可 以 用 于 智能 手机 的 日 然 特征 跟 中 系统 [Wagner et al. 
2008b]， 现 在 已 经 演化 成 流行 的 AR 开发 工具 包 Vuforia。 近 年 来 ， 跟 踊 领 域 值得 注意 的 成 
就 还 包括 Klein 和 Murray [2007] 的 并 行 跟 踊 与 地 图 构建 (PTAM) 系统 ， 该 系统 无 需 事先 准 
备 就 可 以 在 未 知 环 境 中 进行 跟 踊 ; 以 及 Newcombe 等 人 [2011a] 开发 的 KinectFusion 系统 ， 
可 以 借助 低 成 本 深度 传感器 构建 精细 的 三 维 模型 。 如 今 的 AR 开发 人 员 有 许多 软件 平台 可 供 
选择 ,但 这 些 原型 系统 仍 将 继续 代表 重要 的 研究 方 同 。 


1.3 示例 


本 节 通 过 人 研究 一 系列 应 用 案例 继续 探索 AR， 这 些 案例 展示 了 AR 技术 及 其 应 用 。 我 们 
从 AR 技术 早期 的 成 功 应 用 案例 开始 ， 首 先 介绍 工业 、 建 筑 业 、 维 修 、 培 训 以 及 医学 领域 中 
的 应 用 ， 然 后 专注 于 讨论 个 人 移动 领域 的 应 用 ， 包括 个 人 信息 显示 和 导航 文 持 ， 最 后 介绍 
AR 如 何 通 过 增强 媒体 渠道 (如 电视 、 在 线 商 务 和 游戏 等 ) 文 持 大 型 受众 的 案例 。 


1.3.1 工业 和 建筑 业 


正如 我 们 在 AR 的 简要 历史 概述 中 所 提 到 的 ， 激 发 AR 应 用 的 第 一 个 实际 案例 是 工业 应 
用 ， 包 括 波音 的 线束 组 装 以 及 早期 的 维护 和 修理 实例 。 

工业 设施 的 日 益 复 杂 对 其 规划 和 运行 产生 了 次 远 的 影响 。 尽 管 可 以 使 用 计算 机 辅助 设计 
(CAD) 软件 进行 建筑 结构 、 基 础 设施 和 仪器 设备 的 规划 设计 ， 但 在 实际 建造 和 安装 期 间 通 
常会 进行 多 次 修改 ， 这 些 修 改 通常 不 会 体现 在 CAD 模型 中 。 此 外 ， 在 引入 CAD 进行 设计 
之 前 可 能 已 经 存在 大 量 的 已 有 结构 ， 以 及 在 工厂 生产 新 产品 时 需要 不 断 进行 安装 改造 。 此 时 
规划 人 员 硕 望 能 够 将 “计划 ”与 设施 的 “原样 ”状态 进行 比较 以 识别 出 所 有 关键 的 俩 差 。 此 
外 他 们 还 希望 获得 设施 的 当前 模型 以 用 于 规划 、 翻 新 或 物流 流程 

传统 上 ， 这 些 都 是 通过 3D 扫 摘 仪 以 及 场 外 数据 集成 和 比较 实现 的 。 然 而 ， 这 个 过 程 元 
长 乏味 ， 并 且 生 成 的 是 点 云 组 成 的 底层 模型 。 与 将 现场 设施 输入 到 CAD 模型 中 相反 ，AR 
将 CAD 模型 与 现场 设施 相 结 合 ， 使 得 现场 检查 成 为 可 能 。 例 如 Georgel 等 人 [2007] 开发 了 
静止 帧 AR 技术 ， 可 以 从 单 张 图 像 中 的 透视 线索 提取 摄像 姿态 并 融合 显示 配 准 的 透明 泻 染 
CAD 模型 ( 见 图 1.12 ) 





图 1.12 AR 可 用 于 工业 设施 的 差异 分 析 ， 这 些 图 像 显 示 了 融合 显示 CAD 信息 的 静 
tk, CERCA b 的 问 门 安装 在 了 左 侧 ， 而 不 是 模型 中 示 出 的 右 侧 (H Nassir 
Navab 提供 ) 
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Schönfelder 和 sonnii ae tit T tr A Shae ER Be AY 46 SK oy AR 显示 Planar 系统 
见 图 1.13 )， 提 供 了 全 交互 工业 设施 实时 检查 功能 。 


-= 





a) b) 


图 1.13 a) ÆFIR AME ik aes. b) 可 下 接 用 于 工厂 现场 的 差 寞 分 析 (由 Ralph 
Schénfelder 提供 ) 


公用 事业 公司 依靠 地 理 信息 系统 (GIS) 管理 通信 线路 和 燃气 管道 等 地 下 基础 设施 。 在 
很 多 情况 下 需要 了 解 地 下 管线 的 精确 位 置 ， 例 如 在 法 律 上 施工 经 理 有 义务 获取 地 下 基础 设施 
NAKA, nd nah 查找 供电 中 断 原 因 或 更 新 过 时 的 GIS 信息 
同样 经 常 需要 现场 检查 。 在 所 有 这 些 情况 下 ， 呈 现 从 GIS 导出 并 直接 配 准 到 目标 地 点 的 AR 
视图 可 以 显著 提高 户外 工作 的 精度 和 速度 [Schall et al. 2008]. K| 1.14 展示 了 一 个 这 样 的 户 
小 AR 可 视 化 系统 Vidente 


rng es) | 





a) b) 


图 1.14 a) 用 于 户外 AR 的 带 有 差分 GPS 系统 的 平板 电脑 。b) HSE B A e T Hi 
理 配 准 视图 (由 Gerhard Schall 提供 ) 





带 有 摄像 机 的 微型 飞行 器 (无 人 机 ) 越 来 越 多 地 用 于 机 载 检查 AEA HE 这 些 无 
人 机 具有 一 定 程度 的 自主 飞行 控制 能 力 ,， 但 总 是 需要 一 个 操作 人 员 进 行 操 作 。AR 对 于 定位 
无 人 机 ( 见 图 1.15 )， 监 测 其 位 置 、 fetter 以 及 警示 操作 员 可 能 发 生 的 碰 
撞 非 第 有 帮助 [Zollmann et al. 2014]。 





图 1.15 虽然 无 人 机 已 经 发 到 几乎 不 可 见 的 距离 它 的 位 置 可 以 通过 天 空 AR 融合 显示 
进行 可 视 化 (由 Stefanie Zollmann 提供 


1.3.2 ”维修 和 培训 


了 解 设备 如 何 工 作 以 及 学 习 如 何 组 装 、 RSS E Le ee a 由 于 
通常 不 可 能 详细 记 住 所 有 步 台 ,维修 工程 师 通 常 需要 花费 大 量 时 间 学 习 手 册 和 文档 。AR 可 
以 呈现 卫 接 合 加 在 工人 视野 中 的 指令 ， 这 可 以 提供 更 有 效 的 训练 ， 更 重要 的 是 ， 它 允许 接受 
较 少 训练 的 人 员 正 确 地 执行 任务 。 图 1.16 展示 了 AR 如 何 帮助 用 户 拆 下 目 动 咖啡 机 的 煮 咖 
顺序 [Mohr et al. 2015]. 








RPG 咖啡 机 内 部 的 重 影 可 视 化 ， 可 以 指导 终端 用 户 的 维护 (由 Peter Mohr 提供 ) 
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图 1.17 自动 生成 的 阀门 拆 钾 顺序 (由 Peter Mohr 提供 ) 


如 果 知 要 寻求 他 人 的 支持 ，AR 可 以 为 物理 任务 的 实时 远程 移动 协作 提供 共享 的 可 视 化 
空间 [Gauglitz et al. 2014a]。 信 助 AR 技术 ， 远 程 专家 可 以 通过 本 地 用 户 的 当前 摄像 机 视点 
独立 地 探索 场景 ， 并 且 可 以 借助 本 地 用 户 在 AR 视图 中 实时 看 到 的 空间 注释 进行 交流 ( 见 图 
1.18 )。 这 一 过 程 可 以 通过 实时 视觉 跟踪 和 重建 来 实现 ， 不 需要 事先 准备 环境 或 装 设 仪器 。 
AR 远程 呈现 结合 了 实时 视频 会 议和 远程 场景 观察 的 优点 ， 提 供 了 一 个 自然 的 协作 界面 。 





图 1.18 a) 由 远程 专家 通过 平板 电脑 实现 的 AR 远程 呈现 汽车 辅助 维修 场景 。b) 远程 
专家 可 以 直接 在 从 维修 地 点 依次 发 送 的 汽车 3D 模型 上 绘制 提示 (由 Steffen 


Gauglitz 提供 ) 


1.3.3 ”医疗 
X 射线 成 像 的 使 用 为 医生 提供 了 在 不 进行 手术 的 情况 下 透视 患者 身体 的 音 戎 糙 诊 断 方 


o Am, WAL X 里 线 和 计算 机 断层 扫描 设备 分 离 了 患者 的 内 部 与 外 部 视图 。AR 集成 了 
这 些 视 图 ,使 医生 能 够 直接 看 到 患者 体内 。 一 个 已 经 商业 化 的 应 用 示例 是 摄像 机 增强 移动 
CM, Bl CamC ( 见 图 1.19 )， 利 用 一 个 移动 C 形 臂 在 手术 室 中 提供 和 射线 视图 。CamcC 
节 展 了 这 些 视 图 ， 通 过 将 筑 规 摄像 机 与 X 射 线 光 学 器 件 同 轴 布 置 传送 精确 配 准 的 融合 图 像 
[Navab et al. 2010]。 医 生 可 以 根据 需要 在 内 部 和 外 部 视图 之 间 切 换 或 融合 。CamC 有 许多 临 
床 应 用 ， 包 括 引 导 和 穿刺 活 组 织 切 片 检 查 和 协助 骨科 螺钉 的 放置 。 
J 原始 的 
ELEN. 
pr 


用 90°Camc 视图 


i K i Bs 


带 有 弹片 的 干 式 


组 织 





图 1.19 CamC 是 一 个 移动 的 C 形 臂 ， 人 允许 医生 在 常规 的 摄像 机 视图 和 X 射线 图 像 之 间 
无 颖 融合 (由 Nassir Navab 提供 ) 


1.3.4 个 人 信息 显示 


正如 我 们 已 经 看 到 的 ， 几 个 特定 的 应 用 领域 可 以 从 AR 技术 的 使 用 中 获 益 。 但 是 这 种 
技术 能 否 被 更 广泛 地 应 用 于 支持 更 多 的 受众 完成 日 常任 务 ? 今天 ， 这 个 问题 的 答案 是 一 个 响 
膏 的 “能 ” 。 智 能 手机 上 已 经 有 多 种 AR 浏览 器 应 用 程序 (如 Layar, Wikitudes, Junaio 等 )， 
这 些 应 用 程序 在 提供 用 户 环 境 中 兴趣 点 的 相关 信息 ， 并 将 其 径 加 在 来 自 摄 像 机 的 实时 视频 
上 。 兴 趣 点 可 以 通过 地 理 坐 标 给 出 ， 通 过 手机 传感器 ( GPS， 罗盘 读数 ) 确定 或 者 通过 图 像 
进行 识别 。AR 浏览 硕 有 明显 的 局 限 性 ， 包 括 潜在 的 较 差 GPS 精度 和 增强 能 力 ， 只 针对 单 点 
而 不 是 完整 的 对 象 。 人 然而 ， 随 着 智能 手机 数量 的 激增 ,， 这些 应 用 程序 变 得 人 人 可 用 ， 由 于 
AR 浏览 厦 中 内 置 了 社交 网 络 功能 ， 它 们 的 用 户 数 不 断 增长 。 图 1.20 展示 了 已 经 被 集成 到 社 
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交 阅 务 评论 应 用 Yelp 中 的 AR 浏览 大 Yelp Monocle 


Yoshinoya 
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Courtyard Cafe, 1180 University Center Rd 





图 1.20 FESCUE MK BINS Se SY AR N Ear, LL Yelp Monocle 为 例 


a AY [al 2 A A 翻译 
AR 浏览 的 另 一 个 引 人 注 上 且 的 应 用 实例 是 外 语 的 同步 翻 伴 ， 这 已 经 可 以 通过 ght the A 
s = i 本， 然后 翻译 
应 用 程序 实现 ( 见 图 1.21 )。 用 户 只 需 选 择 目 标语 言 并 将 摄像 机 指 回 打印 文本 She 
容 就 会 个 加 在 图 像 上 . 





BURGERSTEIG KREIDE | 





泽 实 时 识别 文 : 象 纪实 时 蕉 加 翻译 的 文字 
图 1.21 Google 翻译 实时 识别 文字 并 在 摄像 机 图 像 上 目 ; 


1.3.5 San 
站 7.3 JE: AH HE LH E 在 车 :用 
由 于 不 会 干扰 高 速 运 动 交 通 工 具 操 作 人 员 的 前 方 环境 ， 平视 导航 的 想法 前 ae 
EA S WE. 已 经 出 现 了 多 款 可 以 安装 到 飞行 员 头 
飞机 的 扣 作 中 [Furness 1986]。20 世纪 70 年 代 以 来 ， opti : yet 
簿 面 日 上 的 透视 显示 着。 这 些 通 第 被 称 为 平视 显示 益 的 设备 的 目的 是 显示 当前 速度 马 


不 需 配 准 的 信息 ， 但 同时 也 可 以 用 于 某 种 形式 的 AR 显示 。 然 而 .考虑 到 其 不 同 的 工效 分 析 
和 定价 体系 ， 军 事 技术 通常 不 能 直接 应 用 于 消费 者 市 场 。 

利用 改进 的 地 理 信 息 ， 已 经 可 以 将 道路 网 络 等 较 大 的 结构 融合 显示 在 车 载 导 航 系统 上 。 
图 1.22 展示 了 第 一 人 称 汽 车 导航 系统 Wikitude Drive， 驾 驶 指令 不 再 呈现 在 类 似 地 图 的 视图 
上 ， 而 是 到 加 在 实时 视频 上 。 尽 管 该 系统 基于 GPS 等 智能 手机 的 传感器 ， 由 于 汽车 的 惯性 
允许 系统 以 一 定 精度 预测 前 方 的 路 线 ， 其 配 准 质量 是 可 以 接受 的 。 





图 1.22 Wikitude Drive 融合 显示 了 前 方 道 路 的 透视 图 (由 Wikitude GmbH 提供 ) 


图 1.23 展示 了 一 个 停车 辅助 系统 ， 该 系统 将 一 个 图 形 可 视 化 的 汽车 轨迹 履 盖 在 后 置 摄 
像 头 的 视图 上 。 





图 1.23 停车 辅助 是 现今 许多 汽车 的 可 选 AR 功能 (由 Brigitte Ludwig 提供 ) 


1.3.6 ”电视 

许多 人 和 AR 的 首次 相遇 可 能 是 通过 电视 转播 传送 到 他 们 家 中 的 现场 摄像 机 镜头 注释 
这 个 概念 的 首 个 和 最 著名 的 例子 是 美式 橄榄 球 比 赛 中 直接 堆 加 在 电视 屏幕 录像 上 的 虚拟 10 
码 线 ， 用 来 指示 第 一 次 进攻 所 需 的 码 数 。 虽 然 添加 这 种 橄榄 球 转播 现场 标记 的 想法 和 第 一 个 
专利 可 以 追溯 到 20 世纪 70 年 代 未 ， 但 是 直到 1998 年 这 一 概念 才 变 为 现实 。 使 用 虚拟 琶 加 
来 注释 电视 画面 的 概念 已 经 成 功 地 应 用 于 许多 其 他 运动 项 目 中 ， 包 括 棒球 、 冰 球 、 赛 车 和 帆 
船 等 。 图 1.24 显示 了 一 个 市 有 增强 功能 的 足球 比赛 电视 转播 。 处 在 这 种 典型 AR 应 用 中 的 
观众 无 法 改变 其 观察 视点 ,假设 运动 场 上 的 实时 动作 是 由 被 跟踪 的 摄像 机 捕获 的 ， 即 使 没有 
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图 1.24 增强 的 电视 转播 足球 比赛 ， 由 瑞士 Teleclub 和 Vizrt (LiberoVision AG) 提供 


与 之 竞争 的 一 些 公司 通过 创建 令 人 信服 和 翔实 的 直播 注释 提供 了 不 同 转播 案例 的 增强 解 
决 方案 。 注 释 的 内 容 早 已 不 是 单纯 的 体育 信息 或 徐 单 的 线 状 图 形 ， 现 在 还 包括 品牌 标志 或 产 
名 广告 的 复杂 3D 图 形 演 染 。 

类 似 的 技术 使 得 在 虚拟 演播 室 中 呈现 主持 人 和 其 他 演播 人 员 成 为 可 能 ， 这 事实 上 已 在 今 
天 的 电视 转播 中 得 到 普 遇 应 用 。 在 应 用 中 被 跟踪 的 摄像 机 拍摄 绿色 屏幕 前 面 的 主持 人 并 插 到 
虚拟 泻 染 的 演播 室内 ， 这 样 的 系统 甚至 允许 对 虚拟 道具 的 交互 操作 。 

影 工 业 中 正在 使 用 类 似 的 技术 ， 用 于 向 电影 导演 和 演员 提供 添加 特效 或 者 其 他 应 用 于 
摄像 机 镜头 的 合成 效果 之 后 电影 场景 的 实时 预览 ，AR 的 这 种 应 用 有 时 被 称 为 Pre-Viz。 


1.3.7 广告 和 商务 


AR 具有 向 潜在 买 家 即刻 呈现 产品 任意 三 维 视 图 的 能 力 ， 在 广告 和 商业 中 广 受 欢迎 。 
这 种 技术 可 以 为 消费 者 带 来 真正 的 互动 体验 。 例 如 ， 乐 高 商店 中 的 顾客 将 玩具 包 朔 盒 对 准 
AR 信息 有 后 可 以 观察 组 闭 后 的 乐高 模型 三 维 图 像 ， 同 时 可 以 通过 旋转 玩具 包 痿 盒 选 择 最 
优 视 点 。 

AR 的 一 个 显而易见 的 应 用 是 增强 传单 或 杂志 等 印刷 材料 。《 哈 利 * 波 特 》 的 读者 已 经 了 
解 《 每 日 预言 》 报 中 的 图 片 是 如 何 变 化 的 ， palahian inten lg 
特定 部 分 上 实现 。 当 通过 计算 机 或 智能 手机 观看 杂志 时 ， 毅 态 图 片 将 被 动画 或 影片 代 符 人 
图 1.25). 

AR 也 可 以 用 于 帮助 销售 人 员 展 示 产 品 的 优点 〈 见 图 1.26 )。 特 别 是 对 于 复杂 的 设备 ， 只 
用 语言 难以 说 明 其 内 部 的 操作 。 通 过 证 洪 在 的 客户 观察 其 内 部 的 动画 ， 可 以 在 贸易 展览 和 展 
厢 进 行 更 具 吸 引力 的 演示 。 

Pictofit 是 一 个 虚拟 试 衣 室 应 用 程序 ， 人 允许 用 户 预 览 穿着 在 线 时 装 商 店 中 的 服装 的 效果 
( 见 图 1.27 ) ， 服 装 可 根据 穿戴 者 的 尺寸 自动 调整 ， 同时 估计 出 的 身体 尺寸 可 用 于 帮助 输入 购 
天 数据 。 
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图 1.25 生活 方式 杂志 Red Bulletin 是 第 一 个 使 用 AR 来 呈现 动态 内 容 的 印刷 出 版 物 (由 


Daniel Wagner 提供 ) 





图 1.26 Waeco 空调 维护 的 营销 演示 (由 magiclensapp.com 提供 ) 
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图 1.27 Pictofit 可 以 从 在 线 购物 网 站 提取 服装 图 片 ， 并 提供 匹配 顾客 的 泻 染 图 像 (由 


ReactiveReality 的 Stefan Hauswiesner 提供 ) 





1.3.8 游戏 


《审判 之 眼 》 是 一 个 早期 的 商业 AR 游戏 ， 这 是 一 个 用 于 索尼 PlayStation 3 的 交互 式 交 
匈 卡 洲 戏 。 在 洲 戏 时 ， 头 上 方 的 摄像 机 拍摄 游戏 卡片 并 调用 对 应 的 生物 进行 比赛 。 

传统 游戏 的 一 个 重要 特征 是 其 可 和 触摸 的 本 质 。 和 孩子 们 可 以 把 他 们 的 整个 房间 变 成 一 个 游 
乐 场 ， 家 有 具 被 转换 为 文 持 跳跃 和 隐藏 等 体育 活动 的 道具 。 与 之 相对 的 是 视频 游戏 通常 局 限于 
纯 虚 拟 领 域 。AR 可 以 PE BCE Tie RS EN Fa TE — 起 ， ies am Vuforia SmartTerrain ( 见 图 
1.28) 提供 了 真实 场景 三 维 扫 描 的 功能 ， 并 将 其 转变 为 “ 塔 防 ”游戏 的 游戏 场 。 





图 1.28 Vuforia SmartTerrain 扫描 环境 并 将 变 成 游戏 场景 (©2013 经 Qualcomm 


Connected Experiences 公司 许可 使 用 


化 软 的 HlumiRoom [Jones et al. 2013] 是 基于 投影 机 的 AR 游戏 体验 的 原型 。 它 将 普通 
电视 机 与 家 许 影院 投影 机 相 结 合 ， 将 elgg iene 之 外 (UL 1.29), Fw 
AY) = ZR Die RK ae AL ALE = ED ee BME, (A RY ee ERMA. Soa se PEP 
心 屏 幕 上 时 ， 周 围 视野 也 被 动态 网 像 填 充 ， KAATO: 








图 1.29 ”通过 使 用 电视 机 加 投影 机 架构 ，IllumiRoom 将 游戏 世界 扩展 到 屏幕 的 边界 之 外 
(由 微软 研究 院 提 供 ) 


1.4 相关 领域 


在 上 一 节 中 ， UNE IT TILA AR 应 用 ， 而 其 他 引 人 注 目的 应 用 示例 仅 部 分 匹配 我 
们 所 给 出 的 AR 定义。 这 些 应 用 通 和 来 目 混合 现实 、 无 所 不 在 的 计算 和 虚拟 现实 等 相关 领 





域 ， 下 面 对 其 进行 简要 讨论 。 


1.4.1 混合 现实 连续 体 


沉浸 在 CAVE (由 立体 背 投 墙 组 成 的 房间 ) 或 浸没 式 HMD 内 的 用 户 仅 能 感受 到 虚拟 刺 
激 。 现 实 和 虚拟 现实 之 间 被 称 为 混合 现实 ( MR)， 人 允许 真实 元 素 和 虚拟 元 素 不 同 程度 的 至 
加 。 事 实 上 ， 一 些 人 更 喜欢 “混合 现实 ”而 不 是 “增强 现实 ”， 因 为 他 们 喜欢 MR 更 宽泛 和 
更 具 包 容 性 的 概念 。 

这 个 定义 归功 于 Milgram 和 Kishino [1994]， 他 们 提出 了 一 个 从 现实 到 虚拟 现实 的 连续 
体 ( 见 图 1.30 )， 他 们 所 给 出 的 MR 的 特点 如 下 : 





图 1.30 混合 现实 连续 体 包含 真实 和 虚拟 世界 的 所 有 可 能 组 合 


Benford 等 人 [1998] 更 进一步 ， 认 为 复杂 的 环境 经 稼 是 由 多 个 显示 需 和 相 邻 空间 组 成 
的 ， 构 成 “混合 现实 ”。 这 些 空间 在 “混合 现实 边界 ”相遇 。 

根据 这 个 观点 ， 增 强 现 实 主要 包含 真实 元 素 ， 因 此 更 接近 现实 。 例 如 ， 智 能 手机 AR 应 
用 程序 的 用 户 可 继续 以 正 负 方式 感知 真实 世界 ， 只 是 在 智能 手机 上 呈现 一 些 附 加 元 素 。 在 
这 种 情况 下 ， 现 实 世界 的 体验 明显 占 主导 地 位 。 与 之 相反 ， 在 增强 虚拟 中 虚拟 元 素 占 据 主 要 
地 位 。 例 如 想象 一 个 在 线 角 色 扮 演 游 戏 ， 其 中 化 身 脸 部 的 纹理 是 通过 从 玩家 脸 部 采集 的 视频 
实时 获取 的 。 这 个 虚拟 游戏 世界 中 除了 面孔 都 是 虚拟 的 。 


1.4.2 ”虚拟 现实 


在 MR 连续 体 的 最 右 端 ， 虚 拟 现 实 将 用 户 沉浸 在 完全 由 计算 机 生成 的 环境 中 ， 这 消除 了 
对 用 户 可 以 在 VR 中 行动 或 体验 的 任何 限制 。 作 为 增强 的 电脑 游戏 ，VR 正在 变 得 越 来 越 受 
欢迎 。 用 于 HMD 游戏 设备 的 新 设计 (例如 Oculus Rift 或 HTC Vive) 正在 被 越 来 越 多 的 公 
众 关 注 。 这 样 的 设备 也 适用 于 增强 虚拟 应 用 。 因 此 ，AR 和 VR 可 以 很 容易 地 共存 于 MR j£ 
续 体 内 。 正 如 我 们 后 面 将 要 看 到 的 ， 可 以 设计 过 渡 接 口 来 综合 利用 这 两 个 概念 的 优势 。 


1.4.3” 普 适 计算 


Mark Weiser 在 1991 年 提出 了 普 适 计算 (ubicomp) 的 概念 ， 他 预计 数字 技术 将 被 大 量 
地 引入 到 日 党 生活 中 。 与 虚拟 现实 不 同 ， 普 适 计 算 倡 导 将 计算 机 可 读数 据 的 “虚拟 性 ”通过 
各 种 计算 机 形式 的 代理 带 人 物理 世界 ， 当 今 技术 的 用 户 对 这 些 非 常熟 悉 : 英寸 级 的 “标签 ”、 
英尺 级 的 “便签 ”"、 码 尺 级 的 “黑板 ”。 
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”在 这 样 的 一 个 房间 中 ， 你 可 能 会 看 到 超过 100 个 标签 ，10 或 20 个 便签 以 及 一 或 
BARI RAAHAA A ISEAN RAAE: i o 
[Weiser 1991], ae 


该 描述 包括 移动 计算 的 思想 ， 人 允许 用 户 随时 随地 访问 数字 信息 。 该 描述 同时 预测 了 “ 物 
联网 ”， 即 我 们 日 常 环 境 的 所 有 组 成 部 分 都 被 装备 了 仪器 。Mackay [1998] 认为 增强 的 事物 也 
应 该 被 认为 是 某 种 形式 的 AR， 包括 家 庭 自 动 化 、 汽 车 驾驶 辅助 系统 以 及 能 够 大 规模 定制 的 
智能 工厂 。 如 果 这 种 技术 运用 得 当 ， 将 从 我 们 的 感官 中 消失 。Weiser 在 1991 年 发 表 的 文章 
的 前 两 句 话 简洁 地 表达 了 这 种 模式 : 


最 深奥 的 技术 





是 无 形 的 。 它 们 将 自己 与 日 常生 活 编织 在 一 起 ， 直 至 两 者 无 法 区 分 。 


ubicomp 主要 用 于 “平静 计算 ”， 即 人 类 的 注意 力 或 控制 既 不 是 必需 的 也 不 是 有 意 为 之 
的 。 然 而 ， 在 某 些 时 候 控 制 仍然 是 必要 的 。 例 如 ， 一 名 远离 台式 计算 机 的 操作 员 可 能 需要 操 
纵 复 琳 的 设备 。 在 这 种 情况 下 ，AR 接口 可 以 在 真实 环境 的 视图 中 直接 呈现 状态 更 新 、 遥 测 
信息 和 控制 小 部 件 。 在 这 个 意义 上 ，AR 和 ubicomp 非常 契合 : AR 是 ubicomp 系统 的 理想 
APRA. 

根据 Weiser 的 说 法 ，VR 与 ubicomp HMA lA], Weiser 注意 到 了 VR 环境 的 封闭 性 质 ， 
例如 CAVE 将 用 户 与 现实 世界 隔离 开 来 。 然 而 ，Newman 等 人 [2007] 指出 ubicomp 实际 上 
结合 了 两 个 重要 的 特点 : 虚拟 性 和 普遍 性 。 如 同 MR 连续 体 描 述 的 ， 虚 拟 性 表示 虚拟 和 现实 
混合 的 程度 。Weiser 将 位 置 和 场所 视 为 计算 输入 ， 因 此 ， 普 遍 性 描述 了 信息 访问 独立 于 固定 
位 置 (终端 ) 的 程度 。 基 于 这 些 理解 ， 我 们 可 以 在 “Milgram-Weiser ”图 中 整理 出 一 系列 技 
术 ， 如 图 1.31 所 示 。 
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增强 虚拟 示 
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手机 增强 现 tag 
普 适 计算 示 实 示例 : 地 ka E. ad 
fil: RHA 下 可 视 化 线 游戏 


动 化 
普 适 计算 
图 1.31 Milgram-Weiser 图 展示 了 各 种 用 户 界 面 范例 的 关系 


1.5 小结 

本 章 介 绍 了 增强 现实 的 研究 领域 和 实际 情形 。 作 为 一 个 工作 定义 ,增强 现实 依赖 于 三 个 
关键 组 件 : 虚拟 和 真实 信息 的 组 合 ， 其 中 真实 世界 作为 主要 行动 地 点 ; 实时 更 新 的 交互 ; 配 
准 在 物理 环境 的 三 维 虚 拟 信 息 。 可 以 使 用 不 同 的 技术 来 实现 这 样 的 概念 ， 本 书 的 第 一 部 分 概 
述 了 显示 技术 (第 2 章 )、 跟 踪 技 术 (第 3 章 、 第 4 章 和 第 5 章 ) 和 图 形 技术 (第 6 章 和 第 7 
章 )。 本 书 的 第 二 部 分 (第 8 章 至 第 14 章 ) 介绍 交互 技术 。 

我 们 还 介绍 了 该 领域 的 简要 历史 ， 然 后 进行 了 AR 应 用 案例 的 放风 之 旅 ， 其 目的 是 揭示 
AR 作为 一 个 接口 隐喻 在 物理 世界 计算 中 的 巨大 的 潜力 (有 时 被 称 为 情境 计算 )。 虽 然 存 在 
许多 具体 应 用 的 可 能 性 ， 例 如 用 于 设备 维护 的 AR 或 用 于 外 科 手 术 的 AR， 但 是 也 可 以 设想 
AR 正在 变 成 一 个 更 普遍 的 接口 范例 ， 为 在 物理 世界 中 的 计算 重新 定义 整体 浏览 体验 。 来 自 
个 人 信息 显示 和 导航 领域 的 应 用 实例 已 经 表明 了 这 一 潜力 。 

我 们 通过 相关 领域 的 讨论 来 结束 本 章 ， 我 们 将 AR 放 在 Milgram 的 混合 现实 连续 体 的 范 
围 内 ， 并 且 对 比 了 AR 与 Weiser 的 普 适 计算 的 概念 。 
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与 常规 的 显示 技术 不 同 ， 增 强 现实 呈现 必须 结合 虚拟 刺激 与 真实 刺激 ， 本 章 将 讨论 多 种 
这 样 的 呈现 设备 。 在 开始 讨论 增强 现实 呈现 时 ,我们 首先 考虑 非 视 觉 模 态 。 目 前 已 经 有 很 多 
通过 音频 实现 增强 的 标志 性 工作 ， 然 而 其 他 非 视觉 感 官 (触觉 、 咒 觉 和 味觉 ) 在 增强 现实 研 
究 领域 受到 的 关注 相对 较 少 。 总 体 说 来 ， 目 前 有 关 增 强 现实 的 关注 点 和 进展 大 多 都 聚焦 在 视 
觉 领域 。 尽 管 本 书 作者 对 开发 多 模 态 增强 现实 具有 强烈 的 兴趣 ， 但 考虑 到 这 一 事实 ， 本 章 将 
详细 讨论 视觉 显示 。 

本 章 将 讨论 桌面 显示 、 头 戴 式 显示 器 (HMD)、 手 持 式 显示 器 、 投 影 式 显 示 器 和 固定 式 
显示 需 ， 其 中 大 多 集成 了 非 视 觉 模式 。 因 此 ， 在 聚焦 视 党 领域 之 前 ， 本 和 章 首 先 回顾 与 听觉、 
触觉 以 及 其 余人 类 感官 有 关 的 路 模 态 增强 现实 的 探索 性 工作 。 


2.1 多 模 态 呈现 


尽管 增强 现实 常 被 认为 是 在 用 户 对 物理 世界 的 感知 上 人 加 视觉 信息 ， 但 其 他 感官 模 态 同 
样 扮演 了 重要 的 角色 。 人 类 对 物理 世界 的 体验 本 质 上 是 多 模 态 的 ， 因 此 增强 现实 呈现 支持 多 
种 增强 模 态 非常 有 意义 。 许 多 现代 增强 现实 产品 提供 了 多 感官 输出 ， 一 些 增 强 现实 从 业 人 员 
甚至 聚焦 于 一 个 特定 独立 的 非 视 觉 模 态 。 事 实 上 ， 一 条 完整 的 语音 导 览 或 多 媒体 导 览 产品 线 
已 经 可 以 将 音频 信息 提供 给 博物 馆 或 其 他 主要 面向 游客 场所 的 参观 者 。 针 对 音频 增强 现实 的 
开发 已 经 开展 了 比较 长 的 时 间 了 ,但 是 研究 人 员 同 时 也 在 探索 可 触摸 等 其 他 模 态 的 增强 现实 
技术 。 我 们 接 下 来 将 对 这 些 工作 进行 概述 。 


2.1.14 Rew 


早 在 20 世纪 50 年 代 初 期 就 已 经 出 现 了 博物 馆 语 音 导 览 系统 。 在 很 长 一 段 时 间 里 ， 这 些 
语音 向 导 总 是 带 给 用 户 单 一 、 非 个 性 化 的 体验 。 在 早期 的 系统 中 ， 游 客 通过 在 人 口 处 领取 的 
移动 广播 接收 机 听取 系统 播放 的 不 同 语言 的 讲解 。 磁 带 录 制 的 内 容 被 同步 播放 给 一 组 游客 ， 
广播 的 接收 者 可 以 自由 走动 并 同步 收听 广播 [Tallon and Walker 2008]。 之 后 出 现 了 更 灵活 、 
更 人 性 化 、 更 具 多 媒体 支持 的 语音 导 览 播放 系统 [Bederson 1995] [Abowd et al. 1997]。 如 今 ， 
许多 室内 和 室外 的 游览 景点 都 配备 了 电子 多 媒体 导 览 器 供 游 客 租 赁 ,或 者 提供 资源 让 游客 可 
以 下 载 到 个 人 的 智能 手机 上 。 这 些 设备 通常 具备 位 置 触 发 技术 ， 能 够 在 景点 附近 按 需 提供 音 
频 解 说 。 

男 外 一 种 音频 增强 现实 技术 的 应 用 案例 是 早 在 20 世纪 70 年 代 未 期 出 现 的 、 针 对 视觉 
障碍 人 士 设计 的 辅助 式 音频 导 览 系统 。“ 语 音标 记 ”( talking sign) 是 一 种 通过 红外 信号 发 射 
句 播 放 有 关 物 体 数字 录音 的 系统 ， 借 助 该 系统 ,在 15 ~ 40 米 范围 内 的 有 视力 障碍 的 行人 
可 以 通过 携带 的 移动 式 红外 接收 占 接 收 到 该 数字 录音 [Loomis et al. 1998]。 目 20 世纪 90 年 
代 初 期 第 一 台 手 持 式 GPS 接收 器 问世 以 来 ，Loomis、Golledge 与 圣 巴巴 拉 市 加 利 福 尼 亚 大 
学 的 同行 们 一 起 对 盲人 音频 导航 系统 进行 了 应 用 和 评估 。 他 们 利用 全 球 定 位 和 地 理 信 息 系 


统 ( GIS) 资源 ， 通 过 结合 声音 合成 和 虚拟 声音 呈现 技术 为 有 视力 障碍 的 行人 传达 导航 信息 
[Loomis et al. 1993] [Loomis et al. 1998]. 

并 非 所 有 音频 增强 技术 的 研究 目标 都 是 面向 博物 馆 导 览 类 的 特定 应 用 或 者 视 障 辅助 导 
航 类 的 特定 用 户 群 。 考 虑 到 通用 工作 空间 交流 和 信息 浏览 的 需求 ， 音 环 (Audio Aura) 系统 
[Mynatt et al. 1998] 结合 了 具有 位 置 感知 功能 的 主动 定位 器 [Want et al. 1992] 、 分 布 式 计算 
和 无 线 耳 机 ， 目 的 是 通过 不 易 觉 察 的 数字 音频 传输 提供 背景 信息 。 

如 果 一 个 虚拟 音频 源 是 通过 物理 三 维 位 置 注册 的 ， 则 移动 中 的 收听 者 可 以 感受 到 从 某 
个 特定 三 维 位置 发 射出 的 声音 ， 这 就 需要 研究 空间 听觉 技术 [Burgess 1992]。 对 复杂 环境 中 
声音 传播 的 建 模 是 一 个 非常 具有 挑战 性 的 问题 ， 头 部 跟踪 、 空 间 声 音 合 成 以 及 用 户 的 头 部 
相关 转移 函数 (HRTF) 建 模 同样 可 以 将 空间 声音 效果 提升 到 一 个 更 加 可 信 的 质量 [Searle 
et al. 1976]。 多 年 来 ， 已 经 有 多 种 听觉 增强 现实 的 案例 [Sawhney and Schmandt 2000] 
[Mariette 2007] [Lindeman et al. 2007]。 最 近 发 布 的 Meta 2 和 微软 HoloLens 开发 包 等 增 
强 现实 头 戴 式 显示 滁 置 都 自然 地 文 持 空间 听觉 功能 。 事 实 上，HoloLens 首次 公开 预演 的 评 
论 者 满怀 热情 地 提 到 空间 听 沉 体验 ， 这 种 空间 音效 通过 头 戴 式 显 示 需 内 般 的 扬 声 需 而 不 是 
传统 的 耳机 发 声 。 为 了 便于 终 疹 用 户 使 用 ， 必 须 在 三 维 音 频 保 真 度 和 用 户 相关 的 转移 果 数 测 
量 之 间 有 所 妥协 。 


2.1.2 PRADESH 


在 现实 世界 中 ， 与 物理 对 象 的 交互 通常 通过 触摸 来 实现 。 为 了 达到 增强 现实 的 目的 ,我 
们 可 以 通过 特定 的 物理 对 象 蔡 身 提供 被 动 触 党 反馈 ( 即 可 和 触摸 增强 现实 ( 详 见 第 8 章 )), 或 
者 通过 专用 仪器 设备 合成 和 复 现 可 信 的 触感 ( 即 触 力 党 技术 领域 的 研究 ) 。 当 缺乏 具有 适当 
属性 的 物理 对 象 时 ， 很 难 提供 真实 触感 。 虽 然 已 有 大 量 针 对 虚拟 环境 中 触 力 觉 反 馈 技 术 的 
研究 ， 但 到 目前 为 止 ， 有 关 增 强 现 实 环 境 中 应 用 的 研究 仍然 较 少 。 增 强 现实 特别 是 移动 增 
强 现 实 应 用 需要 无 障碍 的 触 力 觉 再 现 技术 。 笨 重 的 固定 式 力 反馈 设备 只 能 覆盖 相对 较 小 的 
工作 空间 ， 让 普通 用 户 在 日 第 工作 中 心甘情愿 地 穿戴 机 各 人 外 骨 骼 等 显眼 的 力 反 馈 设 备 是 
不 现实 的 。 

我 们 可 以 尝试 在 增强 现实 环境 中 重 现 各 种 触 力 觉 现象 。 具 体 来 说 ， 触 力 觉 反 馈 可 以 分 为 
力 觉 反馈 和 触觉 反馈 。 力 觉 反 馈 提 供 由 于 关节 和 肌肉 神经 感受 到 的 力 ， 而 触觉 反馈 是 通过 各 
种 皮 内 和 皮下 组 织 中 的 传感器 捕 扣 的 针对 表面 的 触感 (与 皮肤 接触 感知 、 表 面 纹理 、 振 动 和 
温度 有 关 )。 热 反馈 也 可 以 看 作 一 种 独立 的 感觉 反馈 。 

BAU 和 Poupyrev [2012] 提供 了 一 个 很 好 的 触 力 觉 增强 现实 呈现 方法 的 概述 ， 将 触 力 觉 
分 为 外 部 触 力 觉 哇 现 (在 物理 环境 中 放置 仪器 设备 ) 和 内 部 触 力 觉 呈现 (通过 改变 触觉 和 力 
党 感知 增加 用 户 的 体验 )。 外 部 触觉 呈现 具有 工作 范围 有 限 和 妨碍 用 户 运动 的 缺点 ， 多 通过 
Plas ADL COLA 2.1 ) 或 连接 到 (隐藏 ) 执行 机 构 的 尼龙 绳 实现 [Ishii and Sato 1994]。 利 
用 较 少 妨碍 用 户 运动 的 技术 实现 外 部 触觉 并 非 不 可 能 ， 例 如 由 迪士尼 研究 院 研 究 的 AIREAL 
原型 系统 [Sodhi et al. 2013b]。 该 技术 通过 产生 旋涡 形式 的 直接 压缩 压力 场 来 呈现 裸 手 的 悬 
空 触感 ， 然 而 通过 AIREAL 实现 触感 的 可 能 性 受 频 率 、 强 度 、 空 气旋 涡 的 模式 等 限制 ， 并 
且 目 前 该 系统 未 能 做 到 静音 ( 即 旋涡 的 产生 会 伴随 着 可 听 到 的 声音 )。 

一 个 早期 的 内 部 触觉 呈现 案例 是 1977 年 由 Collins 和 他 的 同事 展示 的 一 个 为 盲人 设计 的 
视觉 假肢 ， 以 可 穿戴 触觉 背心 的 形式 出 现 [Collins et al. 1977]。 之 后 出 现 了 许多 可 穿戴 触 力 
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mite, GJERE, REL Pb, Sea AIS} PARE [Tan and Pentland 2001] [Lindeman 
et al. 2004] [Teh et al. 2008 ] [Tsetserukou et al. 2010 ]。 可 以 通过 将 微弱 电信 号 注入 用 户 身体 ， 
产生 在 任意 表面 上 的 触觉 [Bau and Poupyrev 2012]。 这 种 可 穿戴 技术 可 以 响应 不 同 的 位 置 ， 
因此 能 够 与 视觉 、 听 觉 增强 协同 提供 触觉 刺激 。 总 的 来 说 ， 当 前 的 触觉 技术 更 适合 于 象征 性 
的 呈现 〈 轻 担 或 振动 )， 而 不 是 对 特定 虚拟 对 象 的 真实 模拟 。 





图 2.1 人 触 力 觉 注册 实例 。 一 个 Phantom Omni (现在 的 Geomagic Touch) 触觉 
设备 的 触 笔 通过 视觉 增强 现实 技术 实现 高 亮 显 示 (由 Ulrich Eck 和 Christian 
Sandor 提供 ) 


Jeon 和 Choi [2009] 将 第 1 章 中 讨论 的 Milgram 混合 现实 连续 体 扩 展 到 了 触 力 觉 领域 。 
fick 7) is TELA A A D SAAB LOR. ( 见 第 8 草 天 于 实物 增强 现实 
的 讨论 )， RT E 项 要 与 视觉 或 听觉 增强 配 准 。 触 力 沉 


混合 现实 结合 了 真实 物体 和 合成 触觉 (如 实物 装置 的 虚拟 振动 触觉 驱动 或 物理 触摸 屏 的 触觉 
反馈 )。 
2.1.3 IR TAUER iz 


包括 气味 模拟 的 多 感官 刺激 协调 的 研究 可 以 追溯 到 Morton Heilig[ 1962] 的 Sensorama 模 
拟 需 专利 ， 他 搭建 了 一 个 独立 的 电影 播放 装置 ， 并 在 接 下 来 的 F 行 不 断 的 完善 。 该 
玫 置 可 以 提供 三 维 观 影 体 验 ， 包 括 立 体 声 、 风 和 气味 [Heilig |182] 官 协同 刺激 是 Heilig 
想法 的 核心 ， 也 是 多 模 态 增强 现实 体验 的 核心 :“ 正 是 微风 、 气 味 、 ae 
协同 作用 ， 为 观察 者 的 感官 提供 所 需 的 感觉 刺激 。 当 需要 产生 运动 感 时 ， 提 供 了 通过 小 的 振 
动 或 是 得 来 模拟 运动 的 方式 ， 同 时 模拟 了 实际 的 冲撞 效果 ,。”[Heilig 1962 ] 

在 空气 中 目 然 受 控 地 散发 香气 并 非 易 事 。Heilig 的 设备 只 是 简单 地 通过 吹 向 观众 的 气流 
释放 和 理气， 而 SpotScents 系统 [Nakaizumi et al. 2006] 利用 了 有 香味 的 空气 组 成 的 旋涡 。 通 
过 协调 两 台 香 味 释放 器 的 空气 喷嘴 ， 两 个 空气 旋涡 在 目标 位 置 碰撞 破裂 后 释放 气味 ,该 系统 
mee, SXF AS BAAR UT. Smelling Screen [Matsukura et al. 2013] 通过 屏幕 四 角 的 
风 局 为 坐 在 二 维 显 示 屏 前 的 用 户 提 供 香 味 。SensaBubble [Seah et al. 2014] 沿 着 指定 路 径 释 
放 由 特定 扩 二 气泡 包 囊 着 的 香 雾 ， 气 泡 被 跟踪 并 通过 投影 图 像 实现 视觉 增强 ， 这 个 视觉 增强 
的 效果 只 能 持续 到 气泡 破裂 ， 此 时 气味 也 被 释放 ， 作 者 认为 这 种 机 制 可 以 用 于 好 玩 的 通知 。 
所 有 这 些 案 例 都 用 了 外 部 嗅觉 呈现 ， 甚 气味 来 源 于 固定 的 环境 位 置 。 作 为 内 部 呈现 的 样 例 ， 
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Yamada 和 他 的 同事 们 [2006] FRAN T PAA SF a MR ie EMREN, FE Pb PET 
了 评估 。 

开展 食品 模拟 喜 项 目的 目标 是 协调 触 力 党 和 味觉 模式 ， 并 展示 和 评估 了 “咀嚼 ”这 一 动 
作 的 触 力 觉 交互 界面 [Iwata et al. 2004]。 志 愿 者 们 在 一 个 模拟 某 种 食物 纹理 的 力 反 馈 效 置 上 
咀 虽 ， 同 时 通过 少量 含有 甜 、 酸 、 咸 、 苗 和 鲜 五 种 基本 味道 的 液体 物质 组 合 诱发 味觉 的 化 学 
感受 。 这 个 特定 的 工作 没有 提供 模拟 食品 的 视觉 呈现 ,但 是 其 他 研究 项 目 已 经 研究 了 视觉 和 
嗅觉 增强 的 结合 。 

例如 Narumi 和 他 的 同事 们 [201la，2011lb] 开 发 了 几 个 MetaCookie 的 道具 ， 通 过 烙铁 
和 商用 的 食品 绘图 仪 及 可 食用 墨水 ， 分 别 在 饼干 表面 绘制 了 增强 现实 标志 。 应 用 嗅觉 呈现 和 
视觉 增强 现实 显示 打造 不 同 风味 的 曲 奇 饼干 ( 见 图 2.2 )。 评 估 结 果 表 明 ， 通 过 结合 多 种 气味 
和 视觉 效果 的 组 合 ， 可 以 模拟 普通 曲 奇 口味 ， 获 得 令 人 信服 的 “ 伪 味 和 觉 效 应 ”， 即 参与 者 已 
经 能 够 指出 增强 曲 奇 的 口味 变化 。 





a) b) 


图 2.2 MetaCookie : 一 个 嗅 党 呈现 装置 和 一 个 普通 曲 奇 饼 干 的 视觉 增强 相 结 合 ， 模 拟 
某 款 饼干 口味 的 感觉 (图 b 为 巧克力 口味 )( 由 Takuji Narumi 提供 ) 


我 们 现 已 简要 回顾 了 非 视觉 增强 现实 呈现 的 历史 与 现状 ,概述 了 多 模 态 增强 的 潜力 ， 本 
草 接 下 来 的 内 容 将 主要 集中 在 视觉 领域 。 我 们 首先 简 述 视觉 感知 ， 从 而 为 研究 不 同类 型 视觉 
SEAS sits FY ies Ie AFF CE BS HE SEH < 
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人 类 视觉 是 一 个 高 度 复杂 的 感觉 器 官 ， 负 责 为 大 脑 提 供 70% 左右 的 整体 感知 信息 输入 
[Heilig 1992 ]。 因 此 ,增强 现实 大 多 集中 在 为 人 类 用 户 的 视觉 感知 提供 增强 上 。 在 讨论 这 种 
视觉 增强 现实 显示 之 前 ， 我 们 将 简要 地 回顾 人 类 视觉 系统 的 重要 特性 。 有 关 人 类 感知 方面 更 
详细 的 信息 ， 读 者 可 以 参考 人 类 视觉 系统 的 通用 文献 [Marr 1982 ] [Frisby and Stone 2010]。 

人 双 目 组 合 视 场 角 的 水 平 跨度 通常 为 200 ~ 220*， 取 决 于 头 部 的 形状 和 眼睛 的 位 置 。 视 
网 膜 的 中 央 止 ( 即 视力 最 敏感 区 ) 仅 履 盖 1 ~ 2*， 视力 敏感 度 在 中 心 的 0.5 ~ 1° 处 达到 峰 
值 。 在 视网膜 中 央 思 之 外 ， 视 力 敏感 度 随 视角 的 增加 而 迅速 下 降 。 人 类 通过 转动 眼珠 (最 大 
范围 为 50* ) 和 头 部 来 补偿 这 种 影响 。 因 此 ， 高 质量 的 增强 现实 需要 能 够 在 高 视力 敏感 度 区 
域 提 供 足 够 分 辩 率 的 观察 装置 。 

通过 调整 瞳孔 直径 ， 人 类 可 以 控制 进入 眼睛 的 光量 。 这 使 我 们 能 够 适应 的 动态 范围 (最 
大 与 最 小 可 感知 光 强 度 之 比 ) 高 达 10”"， 可 以 在 昏暗 的 星光 和 无 比 灿烂 的 阳光 下 进行 观看 。 
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因此 ,一 个 其 正 的 多 功能 增强 现实 显示 带 需 要 适应 宽广 范围 的 观看 条 件 。 

双眼 的 使 用 意味 着 人 类 能 够 感知 双眼 深度 线索 。 图 像 中 物体 的 大 小 、 线 性 透视 、 视 场 中 
的 高 度 、 遮 挡 、 阴 影 和 色差 等 单眼 深度 线索 可 以 通过 传统 的 计算 机 图 形 技术 编码 在 一 个 单独 
的 图 像 内 ， 而 双眼 深度 线索 需要 可 同时 展现 双眼 图 像 的 显示 人 硬件。 最 突出 的 双眼 深度 线索 是 
左右 眼 图 像 间 的 视差 。 视 差 可 以 有 效 地 传达 场景 的 深度 信息 ， 特 别 是 近 距 离 的 物体 。 物 体 离 
眼睛 越 近 ， 物 体 在 两 个 图 像 平面 上 投影 角度 的 偏 移 或 视差 就 越 大 。 


2.3 ”需求 与 特点 


在 我 们 讨论 已 成 功用 于 搭建 增强 现实 的 不 同 视觉 显示 器 之 前 ， 理 解 这 些 显示 器 的 一 些 要 
求 和 不 同 特性 是 很 重要 的 。 

一 个 理想 的 增强 现实 系统 可 以 创建 盘 真 的 三 维 增强 ， 能 够 令 人 信服 地 填充 真实 物理 空 
Bjo 增强 现实 的 设计 师 可 能 会 选择 与 现实 锭 异 的 增强 效果 ， 但 他 们 肯定 会 欣赏 能 够 创造 与 已 
有 的 物理 现实 无 颖 集成 的 虚拟 内 容 的 可 能 性 。 科 学 推理 [Sutherland 1965] 和 《星际 迷航 》 等 
科 约 小 说 [Krauss 1995] 都 提出 了 完美 的 允 真 显示 技术 的 愿景 ,但 这 样 的 想象 缺乏 包含 现实 
志 界 的 思考 。 任 意 移动 周围 的 原子 、 实 时 产生 虚拟 内 容 并 成 为 真实 世界 的 组 成 部 分 以 及 通过 
所 有 感官 感知 这 些 增强 效果 是 令 人 惊异 的 。 显 然 ， 大 多 数 梦 想 暂 时 还 不 可 能 实现 。 

我 们 将 在 第 14 章 回 到 未 来 。 现 在 ,我 们 来 看 看 实际 的 视觉 增强 现实 技术 的 特点 和 潜力 。 
一 个 民 好 的 增强 现实 显示 带 的 设计 需要 对 其 各 种 性 能 进行 取舍 ， 不 同类 型 的 显示 装置 有 各 自 
的 优 缺 点 。 我 们 首先 回顾 当前 增强 现实 显示 装置 使 用 的 增强 方法 。 


2.3.1 增强 方法 


基于 人 类 视觉 系统 的 特性 和 增强 现实 应 用 的 目标 ， 可 以 得 出 增强 现实 显示 装置 的 需求 。 
与 传统 的 计算 机 显示 器 相 比 ， 增 强 现实 显示 装置 的 一 个 明显 不 同 是 需要 将 真实 环境 和 虚拟 环 
境 进 行 纺 合 。 当 真实 和 虚拟 内 容 的 组 合 是 通过 一 片 用 户 观 看 环境 的 透镜 实现 时 ， 称 为 透视 式 
显示 。 有 两 种 基本 方式 可 以 实现 这 一 结果 : 光学 透视 式 显 示 和 视频 透视 式 显示 。 当 增强 内 容 
是 被 投影 到 实际 的 物理 几何 体 上 (作为 虚拟 的 占 位 符 对 象 或 现实 世界 中 的 自然 部 分 ) 时 ， 称 
为 空间 增强 现实 、 基 于 投影 的 增强 现实 或 空间 投影 。 以 下 简要 描述 这 三 种 方法 。 

光学 透视 式 COST) 显示 通常 通过 半 反 半 透 光学 元 件 来 实现 虚实 结合 。 这 类 光学 元 件 的 
一 个 简单 示例 是 半 镀 银 镜 ， 该 银 镜 可 以 让 足够 多 来 自 真实 世界 的 光线 通过 ， 因 此 可 以 直接 观 
察 到 真实 世界 ( 见 图 2.3 )。 同 时 ， 显 示 计 算 机 生成 虚拟 图 像 的 显示 器 被 放置 在 头顶 或 银 镜 的 
一 侧 ， 从 而 可 以 反射 虚拟 图 像 并 县 加 到 真实 世界 上 。 

视频 透视 式 (VST) 显示 通过 电子 的 方式 进行 虚实 融合 。 这 类 显示 通过 摄像 机 拍摄 真实 
世界 的 数字 视频 图 像 并 传输 到 图 形 处 理 磊 ， 图 形 处 理 吉 将 视频 图 像 与 计算 机 生成 的 图 像 进 行 
结合 。 通 第 只 需 将 视频 图 像 复制 到 帧 缓冲 区 作为 背景 图 像 ， 再 在 上 面 绘制 计 算 机 生成 的 图 像 
( 见 图 2.4 )。 可 以 通过 传统 的 观看 装置 呈现 组 合 的 图 像 。 

在 空间 投影 中 ， 增 强 现 实 显示 的 虚拟 部 分 是 由 投影 装置 产生 的 ， 该 类 显示 装置 不 需要 使 
用 特殊 的 屏幕 ， 而 是 直接 将 虚拟 图 像 投 影 到 真实 世界 的 物体 上 〈 见 图 2.5 )。 这 类 显示 装置 也 
是 光学 组 合 的 一 种 形式 ， 但 是 既 不 需要 单独 的 光学 合成 器 ， 也 不 需要 电子 屏幕 。 这 也 是 一 种 
体 三 维 显示 的 案例 [Blundell and Schwartz 1999]， 其 中 定义 可 感知 物体 外 观 的 光 点 的 物理 分 
Afi thd Ke EAS = AE ZS [i] 
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位 姿 传感器 


frer 


生成 虚拟 图 像 (可 以 为 立体 ) 


一。 = 世界 


“Ft ae 





图 2.3 ”光学 透视 式 显 示 装 置 使 用 光学 元 件 将 用 户 观 察 到 的 真实 世界 与 计算 机 生成 的 图 
像 相 结合 


位 姿 传感器 ( 选 装 ) 


图 像 传感器 







生成 虚拟 图 像 
(可 以 为 立体 ) 






图 2.4 视频 透视 式 显 示 装 置 通过 摄像 机 捕 换 真实 世界 ， 并 用 图 形 处 理 器 对 捕获 图 像 进 
行 电 子 化 修改 以 向 用 户 提 供 虚 实 融 合 的 图 像 





生成 虚拟 图 像 一 一 





图 2.5 空间 投影 生 接 将 图 像 投 射 到 真实 对 象 上 ， 不 需要 组 合 硕 单元 
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沉浸 感 是 视觉 增强 现实 显示 发 展 的 关键 因素 。 虽 然 已 经 有 很 多 关于 虚拟 现实 沉浸 感 的 研 
究 [Pausch et al. 1997][Bowman and McMahan 2007] [Cummings et al. 2012]， 但 是 对 增强 现 
实 中 沉浸 感 和 存在 感 因素 的 组 成 和 参数 的 理解 还 不 太 浓 晰 [MacIntyre et al. 2004a] [Steptoe 
et al. 2014]。 本 书 将 沿用 Slater[2003] 对 沉浸 感 和 存在 感 定 义 的 区 别 ， 也 就 是 说 ， 沉 浸 感 指 
的 是 虚拟 现实 (或 本 书 中 的 增强 现实 ) 系统 提供 的 感官 保 真 度 的 客观 水 平 ， 而 存在 感 指 的 是 
用 户 对 这 种 系统 的 主观 心理 反应 。 


2.3.2 单 视 和 体 视 


伴随 着 近 眼 显示 器 和 手持 式 魔 法 透镜 等 透视 式 增强 现实 显示 技术 ， 出 现 了 单 视 和 体 视 的 
问题 ， 如 果 物 理 世 界 是 倩 助 某 种 光学 透镜 进行 观察 或 通过 摄像 机 进行 介 导 的 ， 那 么 将 出 现 两 
个 有 关 场 景 维度 的 问题 : 是 否 保持 了 真实 世界 的 三 维度 ?” 是 否 利 用 双 目 视觉 通过 立体 视 党 的 
方式 展示 增强 效果 ? 

单 目 头 戴 式 显示 帮 仅 为 一 只 眼睛 呈现 图 像 。 单 目 显 示人 各 可 用 于 增强 现实 , 但 由 于 缺乏 沉浸 
感 ， 这 种 方法 不 太 受 欢迎 。 双 目 显 示 器 为 双眼 显示 相同 的 图 像 ， 仅 提供 了 单 视 的 效果 。 这 种 方 
法 有 时 也 被 用 于 视频 透视 式 ( VST) 头 戴 式 显示 需 ， 由 于 只 需要 一 个 单独 的 摄像 机 流 ， 因 此 最 小 
化 了 感知 和 处 理 的 要 求 。 双 目 头 戴 式 显示 需 为 每 只 眼睛 提供 了 一 幅 单 独 的 图 像 ， 能 够 产生 立体 效 
果 。 显 然 在 这 些 选 项 中 ， 双 目 显 示 耸 提供 了 最 高 质量 的 增强 现实 ， 但 技术 成 本 显 者 增加 。 双 目 头 
戴 式 显示 器 需要 两 个 显示 元 件 ， 或 者 是 一 个 可 以 使 用 两 个 光学 元 件 进行 适当 分 割 的 宽 幅 单 显示 天 
( 见 图 2.6 )。 可 以 通过 在 一 个 显示 单 摄像 机 获取 的 真实 背景 的 双 目 镜 显 示 上 进行 泻 染 来 实现 立体 
增强 (如 图 2.6b 所 示 的 手机 摄像 头 )， 但 全 立体 视频 透视 至 少 需要 两 台 摄 像 机 的 视频 输入 来 提 
供 一 个 类 似 于 人 类 双眼 的 视角 ， 为 了 同时 传送 图 像 ， 成 对 的 摄像 机 和 显示 全 必须 保持 同步 。 
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b) 

图 2.6 a) Rift (图 中 为 DK2 ) 2—-RA FUT HOLY RAY LARS aes, M 
Oculus 开发 ， 该 公司 在 2014 4F BK Facebook 以 20 亿美 元 收购 。 此 次 收购 引发 了 
世界 范围 内 对 头 戴 式 显示 技术 的 兴趣 。b) 三 星 Gear VR 是 一 款 不 局 限于 虚拟 现实 
或 增强 现实 的 设备 ， 使 用 智能 手机 (图 中 为 三 星 Galaxy S6) 作为 主要 的 输入 /输出 
和 计算 引擎 
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看 时 ， 无 论 是 否 存在 视差 ， 真实 世界 的 背景 和 增强 内 容 均 可 以 显示 ， 这 可 以 用 于 立体 视觉。 
在 使 用 光学 透视 式 显示 器 时 可 以 直接 观察 到 真实 的 背景 ,因此 自然 地 表现 出 双 目 视差 。 无 论 
是 否 存在 立体 视觉 ， 增 强 内 容 均 可 以 被 泻 染 。 提 供 立 体 视 觉 的 透视 式 显 示 需 的 可 能 设计 方案 
如 图 2.7 所 示 ， 其 中 列 出 的 大 多 数 显 示 策 样 例 为 商业 头 戴 式 显示 需 〈《 即 近 眼 显示 融 )， 但 单 目 
视频 透视 式 显示 需 还 包括 智能 手机 和 基于 平板 电脑 的 手持 式 增强 现实 系统 等 稼 见 案例 。 

视频 透视 式 显 示 需 可 以 使 用 一 人 台 或 两 台 摄 像 机 。 一 套 宙 有 两 台 与 眼睛 光 轴 对 齐 的 摄像 
机 的 视频 透视 式 显 示 咒 〈 见 图 2.14 ) 可 以 产生 让 用 户 立 体感 知 的 物理 世界 图 像 。 众 所 周知 的 
是 ， 利 用 立体 摄像 机 输入 提供 三 维 空间 的 逼真 感受 是 非常 困难 的 。 人 类 已 经 习惯 于 不 需要 任 
何 媒 介 就 可 以 无 障碍 地 观察 物理 世界 ， 对 高 保 丰 显示 具有 很 高 的 期 望 ， 尤 其 是 不 同 深度 线 
索 的 相互 影响 。 由 于 视 场 、 分 辨 率 和 聚焦 能 力 等 其 他 沉浸 因素 不 可 避免 地 存在 与 理想 值 的 偶 
离 ， 因 此 会 造成 轻微 或 非 贡 不 目 然 的 体验 。 


2.3.3 调 焦 


在 计算 机 图 形 学 中 ， 通 第 使 用 针 筷 摄像 机 模型 (摄像 机 光圈 是 理想 点 ， 不 使 用 透镜 ) 
对 虚拟 物体 进行 泻 染 ， 导 致 不 同 景深 的 物体 均 完 美 清 晰 地 成 像 。 我 们 的 眼睛 和 真实 摄像 机 
一 样 有 一 定 范 围 的 光圈 尺寸 ， 因 此 必须 考虑 有 限 景 深 的 问题 ， 只 有 一 定 范 围 内 的 物体 才 会 
被 聚焦 ， 而 这 个 范围 以 外 的 所 有 物体 都 会 模糊 不 清 。 当 然 ， 我 们 的 眼睛 可 以 根据 观看 距离 
JT EIE (MA). 

调 焦 可 以 作为 辐 轩 (通过 眼球 独立 旋转 使 视线 凝聚 在 空间 的 一 个 点 上 ) 的 条 件 反 射 发 生 ， 
也 可 以 有 意识 地 控制 。 我 们 通过 改变 瞳孔 后 方 的 弹性 透镜 来 在 一 定 距 离 内 调 焦 。 然 而 ， 当 
涉及 立体 显示 屏幕 时 就 不 那么 简单 了 ， 任 何 用 肉眼 或 通过 向 规 光 学 系统 观看 的 显示 屏 都 有 一 
个 固定 的 焦距 ， 因 此 虚拟 物体 的 图 像 将 始终 显示 在 这 个 固定 的 距离 ， 尽管 该 物体 的 实际 深度 
(到 虚拟 摄像 机 的 距离 ) 可 能 会 变化 很 大 。 在 这 样 的 立体 显示 需 中 ， 物 体 的 实际 距离 通过 立 
体 视 差 传递 给 人 类 视觉 系统 ， 从 而 产生 一 定 程 度 的 辐 转 反 应 。 这 一 结果 是 调 焦 和 视线 凝视 发 
生 冲 突 ， 即 所 谓 的 辐 连 调节 冲突 。 人 们 从 虚拟 场景 的 双 目 立体 线索 中 得 到 变化 的 辐 转 信息 ， 
这 与 适应 显示 器 焦 次 的 固定 调 焦 发 生 冲突 。 这 种 现象 已 被 证 实 会 降低 任务 绩效 并 导致 视觉 疲 
47 [Emoto et al. 2005] [Hoffman et al. 2008] [Banks et al. 2013]. 
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生 。 使 用 这 种 立体 泻 染 的 光学 透视 式 增 强 现实 系统 还 会 有 另外 一 个 相关 问题 : 用 户 在 观察 虚 
拟 增 强 图 像 时 会 受到 辐 连 调节 冲突 的 影响 ,但 是 用 户 会 通过 正确 的 调 焦 线索 观察 现实 世界 ， 
为 了 清楚 地 观看 虚拟 的 和 加 物 ， 用 户 需 要 调 焦 到 显示 图 像 平面 。 因 此 ， 为 了 读 取 位 于 建筑 物 
立 面 前 的 虚拟 文本 标签 ， 用 户 必须 在 建筑 物 立 面 平面 和 显示 图 像 平面 之 间 来 回 聚 焦 。 在 广 视 
立 面 平面 时 用 户 可 以 看 到 聚焦 处 的 建筑 细 市 ， 但 文本 信息 将 是 模糊 的 ， 反 之 亦 然 。 任 何 虚实 
物体 的 共同 放置 都 会 受到 这 个 问题 的 影响 ， 除 非 物体 的 深度 恰好 在 显示 图 像 平面 上 。 至 今 为 
止 这 个 问题 的 严重 程度 尚未 被 详尽 评估 ， 人 们 可 以 毫 不 费力 地 调 焦 ， 但 随 着 使 用 时 间 的 增 
加 ， 视 觉 疲劳 和 不 适 感 会 随 之 增加 。 

解决 这 个 问题 的 一 个 技术 途径 是 使 用 实时 改变 焦点 平面 的 显示 右 。 目 前 研究 人 员 正 在 探 
索 这 样 的 技术 [Liu et al. 2008]， 该 技术 需要 通过 跟踪 用 户 的 眼睛 来 识别 用 户 所 关注 的 对 象 ， 
然后 根据 用 户 的 关注 点 调整 聚焦 平面 的 位 置 。 
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多 焦 显 示 [Schowengerdt and Seibel 2012] 提出 了 另外 一 种 辐 转 调节 冲突 的 解决 方案 ， 在 
2.5.1 节 将 讨论 这 类 技术 。 在 体 显 示 技 术 中 光线 从 三 维 物 体 的 实际 位 置 发 出 或 反射 [Blundell and 
Schwartz 1999]， 因 此 调节 与 辐 转 目 然 匹配 ， 作 为 其 特例 ， 本 文 将 在 2.5.4 市 描述 空间 投影 。 

如 果 选 用 的 立体 显示 占有 一 个 固定 的 焦 平 面 ， 巧 妙 地 运用 其 他 次 度 线索 可 能 会 减少 由 
于 辐 转 调整 不 匹配 市 来 的 问题 。 深 度 线索 的 回顾 详 见 Cutting 和 Vishton[1995] 的 工作 ,或 
Blundell 和 Schwartz [1999] 撰写 书籍 的 第 1 章 。 例 如 可 以 用 计算 机 图 形 模拟 场景 深度 效应 度 
( 见 Barsky 和 Kosloff [2008] 的 技术 报告 ) 。 和 眼 部 跟踪 相 结合 [Hillaire et al. 2008]， 通 过 实 
时 泻 染 景深 之 外 的 模糊 效果 可 以 缓解 辐 连 调节 冲突 [Vinnikov and Allison 2014]. 

在 视频 透视 系统 中 ， 摄 像 机 光学 系统 负责 传输 具有 正确 焦点 位 置 的 图 像 。 如 前 所 述 ， 视 
频 透 视 式 显示 器 可 以 采用 一 台 或 两 台 摄像 机 ( 见 图 2.7 )， 后 者 可 提供 真实 场景 的 立体 显示 。 
摄像 机 的 焦距 动态 范围 与 人 眼 差异 很 大 。 即 使 它们 相同 ， 在 眼球 伸展 放松 的 眼 动 线索 和 摄像 
机 的 调 焦 系统 之 间 建 立 联系 也 是 一 个 很 大 的 挑战 。 摄 像 机 可 以 使 用 自动 对 焦 机 制 ， 自 动 将 焦点 
调整 到 中 心 物体 。 虽 然 这 样 的 自动 对 焦 设 置 通常 不 能 由 摄像 机 所 连接 的 计算 机 来 获得 ， 但 到 特 
定 物 体 的 距离 仍然 可 以 从 场景 模型 中 确定 ， 这 些 场景 模型 可 以 离线 获取 ， 或 通过 本 书 第 4 章 中 
讨论 的 SLAM 等 方法 在 线 获取 。 利 用 这 些 信 息 可 以 泻 染 对 应 于 估计 的 焦距 深度 线索 (例如 景深 
模糊 ) 的 虚拟 物体 ， 甚 至 可 以 在 摄像 机 流 上 进行 图 像 处理 以 获得 近似 聚焦 的 效果 。 然 而 ， 在 深 
度 感知 的 视频 透视 体验 方面 ， 特 别 是 聚焦 效果 上 ， 可 能 不 会 有 非常 好 的 真实 感 。 


2.3.4 遮挡 


虚拟 物体 与 真实 物体 之 间 的 遮挡 是 表现 场景 结构 的 重要 线索 。 真 实物 体 之 间 正 确 的 遮挡 
关系 是 自然 形成 的 ， 虚 拟 物 体 之 间 正 确 的 遮挡 关系 很 容易 通过 z 缓存 的 方法 实现 ， 但 是 如 何 
实现 真实 物体 和 虚拟 物体 之 间 的 遮挡 需要 特别 考虑 。 如 果 可 以 获得 真实 场景 的 几何 表示 ， 视 
频 透 视 系统 可 以 通过 使 用 z 缓存 的 方法 确定 虚拟 和 真实 物体 中 的 哪 一 个 在 前 面 。 在 光学 透视 
系统 中 ， 增 强 内 容 经 常 以 半 透 明 履 盖 的 形式 出 现 ， 因 此 更 难 实现 虚拟 物体 看 似 真 正 出 现在 真 
实物 体 之 前 的 效果 。 有 具体 实现 遮挡 的 方法 有 以 下 三 种 : 
e 可 以 将 虚拟 物体 泻 染 得 非常 明亮 ， 远 远 亮 于 真实 物体 的 可 见 强度 ， 从 而 虚拟 物体 将 
会 凸显 。 然 而 ， 这 可 能 会 对 真实 场景 其 余部 分 的 感知 产生 不 利 影响 。 
e 在 可 控 环境 中 ， 真 实 场景 的 相关 部 分 可 以 通过 计算 机 控制 的 投影 仪 进行 照明 ， 而 场景 的 
其 余部 分 (特别 是 被 虚拟 物体 遮挡 的 真实 物体 ) 处 于 暗 区 域 中 ， 从 而 无 法 被 察觉 [Bimber 
and Fröhlich 2002]。 在 这 些 暗 区 域 中 ， 虚 拟 物 体 看 起 来 可 以 遮挡 真实 物体 ( 见 图 2.8 )。 
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图 2.8 遮挡 阴影 技术 使 用 可 控 照 明 来 屏蔽 现实 世界 中 被 不 透明 计算 机 图 形 遮 挡 的 部 分 


e 光学 透视 式 显 示 需 可 以 通过 选择 液晶 屏 单 个 像素 透明 或 不 透明 来 进行 增强 ，ELMO 
mst it aN at [Kiyokawa et al. 2003] 是 这 一 方法 的 开创 性 成 果 LA 2.9). 


虚拟 图 像 





i LCD 平板 
EB Fie fie 
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b) 


图 2.9 a) ELMO Sets ib a ah En EAE SAG A ZB SF — A W ia Ss AR, 
可 以 实现 真实 世界 物体 的 像素 级 遮挡 。b) Kiyokawa A 42 Al ELMO 原型 (由 
Kiyoshi Kiyokawa 提供 ) 
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的 限制 。 如 果 使 用 视频 透视 的 解决 方案 ， 现 实 世 界 的 分 辨 率 又 额外 受到 摄像 机 分 辩 率 的 限 
制 。 通 常 ， 计 算 机 生成 的 显示 图 像 无 法 与 人 类 直接 感知 真实 世界 的 最 大 分 辨 率 相 匹 配 〈 见 图 
2.10 )， 然 而 ， 我 们 总 是 需要 足够 的 分 辩 率 来 抑制 影响 用 户 感知 真实 世界 的 计算 机 生成 图 像 
(如 像素 线条 或 文字 ) 的 干扰 项 。 


视频 透视 





a) b) 


图 2.10 ”光学 透视 式 显 示 硕 中 真实 世界 的 图 像 质量 较 高 ， 但 通常 不 一 致 。( 通 常 被 遮挡 
的 ) 钳子 尖 通 过 演 染 进行 了 增强 。 图 例 模 型 展示 了 增强 部 分 (a) 和 整个 图 像 
(b) 的 放大 分 辨 率 效 果 


除了 空间 分 辩 素 ， 时 间 分 辨 率 ( 即 显 示 虽 本 身 的 刷新 率 ) 对 于 减少 感知 闪烁 、 消 除 图 像 
沛 后 和 鬼 影 非常 重要 。 闪 烁 融合 浆 值 是 普通 人 类 观察 者 无 法 分 辨 灯光 闪烁 刺激 的 频率 。 许 多 
因 系 会 影响 这 个 国 仁 ， 虽 然 某 些 人 类 观察 者 感受 CRT 显示 器 闪烁 的 刷新 率 小 于 75Hz, 18% 
WF LCD 显示 需 的 具有 更 高 像素 持久 性 的 新 显示 技术 可 以 避免 在 60Hz 或 更 低 刷 新 率 时 发 
生 闪 烁 。 刷 新 率 影 响 显 示 需 演 染 运动 的 方式 。 为 了 显示 运动 图 像 ， 人 类 的 闪烁 融合 阔 值 通常 
被 设 定 为 16Hz， 而 不 同 制 式 的 电视 摄像 机 以 每 秒 25 或 30 帧 工作 。 更 高 的 帧 率 ( 120Hz 以 
E) 有 利于 实现 无 模糊 的 快速 运动 泻 染 ， 虚 拟 现实 和 增强 现实 大 多 需要 60Hz 以 上 的 帧 率 。 
更 高 的 显示 刷新 率 也 第 被 用 于 虚拟 现实 和 增强 现实 显示 器 中 的 时 间 复 用 信息 传输 ， 如 立体 显 
示 希 中 左 、 右 眼 帧 的 交 蔡 传输 ， 以 及 场 序 彩色 显示 需 中 通过 快速 时 序 显示 红 、 绿 、 蓝 色 进 行 
单 像 系 颜色 融合 。 


2.3.6 W 


次 在 地 说 ， 视 场 (FOV) 比 原始 分 辩 率 更 重要 。 视 场 和 分 辩 率 相互 关联 ， 因 此 在 相同 的 
像素 密度 下 ， 需 要 更 多 的 像素 来 填充 更 大 的 视 场 。 更 大 的 视 场 意味 着 在 单个 视图 中 可 以 向 用 
户 显 示 更 多 信息 。 在 增强 现实 系统 中 ， 可 以 分 为 到 加 视 场 和 外 围 视 场 。 在 琶 加 视 场 中 ， 计 算 
机 生成 的 图 像 被 琶 加 在 真实 世界 的 图 像 上 。 与 之 相对 ， 外 围 视 场 是 被 观察 环境 自然 的 、 非 增 
强 的 部 分 。 假 如 图 2.11 中 的 总 视 场 角 为 对 角 线 方向 62。 ， 则 标记 的 琶 加 视 场 角 大 约 为 30° 
对 角 线 。 这 样 一 个 相对 狭 窑 的 视 场 意味 着 用 户 常 常 需要 在 自己 和 虚拟 物体 或 真实 物体 之 间 保 
持 一 定 的 距离 才能 完全 看 到 它们 ， 或 者 以 扫描 运动 的 方式 移动 头 部 以 观察 整个 场景 。 视 场 限 
制 在 虚拟 现实 中 很 常见 ， 尤 其 是 在 增强 现实 显示 中 限制 了 用 户 在 显示 场景 和 内 容 中 的 存在 
感 ， 导 致 沉浸 感 降低 。 

在 视频 透视 式 增强 现实 中 ， 决 定 可 呈现 的 真实 世界 信息 量 的 实际 上 是 摄像 机 视 场 ， 而 非 
显示 名 的 视 场 。 摄 像 机 视 场 通常 大 于 显示 需 视 场 ， 所 以 摄像 机 的 图 像 由 于 被 压缩 而 实际 上 呈 
现 类 似 鱼 眼 的 效果 。 例 如 ， 当 使 用 智能 手机 作为 手持 式 增强 现实 魔 镜 时 ， 由 于 手臂 长 度 的 限 
制 ， 智 能 手机 背面 的 摄像 涉 视 场 角 可 能 要 比 显示 屏 的 大 。 


外 围 FOV 





图 2.11 增强 现实 系统 通常 具有 一 个 有 限 的 视 场 ， 产 生 一 个 增强 可 见 的 “全 加 视 场 ”， 
以 及 一 个 增强 不 可 见 的 “外 围 视 场 ” 


设计 头 戴 式 显示 旨 的 目标 是 覆盖 尽 可 能 宽 的 视 场 。 为 了 避免 头 戴 式 显示 响 的 尺寸 过 大 ， 
我 们 必须 使 它 徘 近 眼 睛 (使 用 视网膜 扫描 显示 带 或 增强 现实 隐形 眼镜 ， 详 见 第 14 章 ) 或 优 
化 光学 元 件 的 设计 。 头 戴 式 显示 需 制 造 商 通 条 给 出 对 角 视 场 而 不 是 水 平和 垂直 的 视 场 ， 从 而 
可 以 方便 地 给 出 更 大 的 视 场 角 数 但 。 当 人 眼 与 头 戴 式 显示 怖 的 距离 固定 时 ， 视 场 导 显示 天 的 
空间 分 辩 挛 决定 了 角 分 辨 座 。 具 有 非常 高 像素 密度 的 显示 器 可 以 使 用 非常 简单 的 放大 光路 来 
呈现 大 视 场 现实 。 伴 随 看 平板 显示 拉 术 的 进步 ， 该 方法 已 被 用 于 最 近 的 Oculus Rift 等 非 透 
视 式 显示 疹 。 然 而 ， 使 用 固定 的 像 系 数 可 能 需要 在 更 宽 的 视 场 或 更 高 的 分 辨 率 之 间 做 出 折 
中 。 例 如 ， 飞 行 员 可 能 喜欢 更 广阔 的 视野 ， 而 外 科 医 生 可 能 需要 更 高 的 分 辨 率 。 


2.3.7 视点 偏 移 

光学 透视 式 显示 器 将 虚拟 和 真实 光路 进行 融合 ， 由 此 产生 的 图 像 通 过 设计 实现 对 齐 。 这 
是 一 个 希望 取得 的 结果 ， 因 为 它 符合 自然 的 观察 方式 。 然 而 ， 这 需要 对 用 于 生成 增强 现实 显 
示 中 虚拟 部 分 的 虚拟 摄像 机 相对 于 用 户 眼睛 的 位 置 进行 标定 。 如 果 标 定 没有 仔细 完成 ， 则 会 
产生 图 像 之 间 的 偏 移 。 在 视频 透视 式 显示 器 中 ， 通 过 使 用 摄像 机 采集 的 图 像 帧 ， 可 以 实现 基 
于 计算 机 视觉 的 注册 ( 见 第 4 章 )， 从 而 得 到 像素 级 的 标注 ( 见 图 2.12 ) 
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图 2.12 WRAP ANA RER BSS Fi ERAAN ERA, ARRI 
确 配 准 更 容易 实现 
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E) 或 者 对 增强 现实 工作 空间 预期 设计 的 限制 。 例 如 ， 工 作 台 可 以 通过 位 于 用 户 面 前 垂直 表 
面 上 方 朝 下 的 摄像 机 呈现 增强 图 像 ， 从 而 可 以 将 用 户 真 正 的 手 和 增强 视图 在 用 户 视 场 看 到 的 
空间 中 分 开 (CULPA 2.13 )。 
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图 2.13 a) MEAR A Ar ver Xt AJT el FR YY kL de Bl WFP FEA Bo a 
现实 交互 空间 。 由 Morten Fjeld 提供 。b) 一 般 来 说 ， 不 允许 出 现 用 户 的 观看 方 
[i] A Se RL IE AH E] A id A 


通过 微型 摄像 机 搭建 头 戴 式 显示 需 时 ， 有 可 能 保持 摄像 机 的 光学 系统 与 用 户 眼睛 的 观看 
方向 对齐 〈 见 图 2.14 )。 第 一 个 这 样 的 狐 置 是 由 佳能 MR 实验 室 研发 的 COAST AR 头 戴 式 显 
AN (je LIS ah PSE IEE HH) [Uchiyama et al. 2002], State SFA [2005] 提出 了 夯 外 一 种 
To AR 2E Fil Hay BE ASK a A ba a Ta FE o 





Al 2.14 COAST AR 是 第 一 款 商 业 无 视差 视频 透视 式 头 戴 式 显示 需 ( 由 Hiroyuki 
Yamamoto 提供 ) 


一 种 改变 视点 的 特殊 情况 是 镜像 配置 。 也 就 是 说 ， 增 强 现实 使 用 一 个 面向 用 户 的 摄像 机 
和 一 个 垂下 屏幕 ， 通 过 与 视频 会 议 相 类 似 的 配置 进行 传输 。 在 这 种 情况 下 ， 显 示 水 平 翻转 的 
摄像 机 图 像 是 有 利 的 ， 用 户 所 看 到 的 显示 类 似 于 我 们 所 熟悉 的 传统 反射 镜 。 
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观察 不 是 完全 目 然 的 ， 


2.3.8 SEAI be E 


在 透视 式 显 示 需 中 获得 充分 的 对 比 度 通常 是 困难 的 。 特 别 是 在 户外 环境 或 自然 光线 充足 
的 情况 下 ， RE 二 天 E, ya 获得 足够 的 对 比 度 。 一 个 常见 的 规避 措 
施 是 减少 影 啊 观 察 条 件 的 物理 光线 ， 例 如 利用 窗帘 控制 室外 的 光线 对 室内 空间 投影 的 影响 ， 或 
时 纵 头 戴 式 显示 融 上 一 个 可 调 下 的 遮光 板 。 光 学 透视 式 头 戴 式 显示 需 人 允许 用 户 直 接 看 到 真实 世 
界 ， 显 示 表 的 最 高 亮度 必须 匹配 真实 世界 的 亮度 水 平 ， 这 使 得 获得 可 接受 的 对 比 度 水 平 很 难 ， 
尤其 是 在 阳光 直射 的 户外 。 在 茶 些 情况 下 ， 光 学 系统 也 可 能 使 现实 世界 过 于 黑暗 〈 见 图 2.15 )。 





图 2.15 ”光学 透视 式 显 示 融 取决 于 光学 合成 带 的 透明 度 ， 而 视频 透视 式 显 示 需 只 要 显示 
给 本 刁 能 提供 足够 的 对 比 度 ， 就 可 以 随意 改变 亮度 和 对 比 度 。 右 图 中 对 比 度 达 
到 极限 ， 一 些 真 实 世 界 的 细节 丢失 


在 观看 视频 透视 式 显 示 器 时 不 需要 直接 观察 真实 环境 ， 所 以 更 容易 控制 观看 环境 下 的 自 
然 光 线 。 不 羊 的 是 ， 传 统 摄像 机 获取 的 较 差 对 比 度 会 变 得 更 加 明显 。 此 外 ， 一 个 视频 透视 式 
头 戴 式 显示 需 通 利 只 上 履 关 用户 视 野 的 某 一 部 分 ， 目 然 光 可 以 从 周围 进入 。 上 此外， 视频 透 视 式 
头 戴 式 显示 需 非 常 依赖 于 电子 元 件 的 运行 。 如 果 摄 像 机 或 显示 器 工作 异常 ， 则 根本 没有 任何 
有 意义 的 图 像 显示 COLA 2.16 ). 





b) 


图 2.16 WREN CVE AS. AP a a aie ASE eB ET AR PG. EE 
小 科 手 术 或 驾驶 飞机 等 紧急 情况 下 是 非常 危险 的 


2.3.9 扭曲 和 畸变 


无 论 光 学 透视 式 还 是 视频 透视 式 显 示 表 邦 包 售 借 片 等 光学 元 件 。 如 采 需 要 宽 视 莪 ， 这 些 
光学 元 件 可 能 会 引入 畸变 ， 特 别 是 鱼 眼 效 应 。 此 外 ， 电 子 成 像 过 程 可 能 导致 采样 和 重建 伪 
影 。 例 如 ， 在 电子 摄像 机 中 广泛 使 用 的 拜耳 掩 模 会 引起 典型 的 色差 。 通 过 使 用 高 质量 组 件 和 
仔细 校准 ， 可 以 使 这 些 问题 最 小 化 ,但 成 本 却 很 高 。 


2.3.10 延迟 


与 空间 误差 类 似 ， 时 间 误 差 也 可 能 会 产生 不 利 的 影响 。 正 如 空间 校准 不 足 会 导致 图像 中 
虚拟 与 真实 物体 之 间 的 偏 移 一 样 ， 虚 拟 与 真实 之 间 时 间 校 准 的 不 足 也 会 产生 空间 偶 移 。 如 宋 
增强 现实 系统 中 的 虚拟 内 容 因 图 形 生成 花费 时 间 过 长 等 原因 导致 显示 太 晚 ， 用 户 可 能 已 经 发 
生 了 移动 ， 这 将 导致 虚拟 内 容 被 显示 在 图 像 的 错误 部 分 。 

延迟 对 光学 透视 和 视频 透视 均 有 影响 ,在 这 两 种 情况 下 均 可 能 发 生 虚 拟 部 分 的 沛 后 显 
示 。 不 同 于 光学 透视 式 ， 视 频 透 视 式 的 一 个 潜在 优势 是 可 以 选择 延迟 视频 来 匹配 虚拟 画面 ， 
由 此 产生 的 增强 现实 显示 将 没有 空间 错位 现象 ， 但 是 其 代价 是 更 长 时 间 的 沛 后 显示 。 只 有 当 
误差 很 小 时 ， 这 种 浪 后 才 是 可 以 接受 的 。 

高 延迟 已 被 证 实 会 导致 观看 虚拟 现实 和 增强 现实 场景 时 举动 症 的 发 生 ， 因 为 不 同人 研究 的 
数据 是 在 特定 的 案例 下 得 出 的 ， 很 难 给 出 确切 的 数字 ,但 已 有 较为 深入 的 研究 表明 国 值 处 于 
20 ~ 300ms 之 间 。 通 过 预测 性 的 补偿 可 以 有 效 减 少 明 显 的 延迟 ， 使 学 动 症 保持 在 一 个 较 低 
的 量 级 [Buker et al. 2012]. 


2.3.11 人 因 工 程 学 


显然 用 户 在 使 用 增强 现实 观看 设备 时 应 该 感到 舒适 。 对 于 固定 式 的 显示 设备 ， 主 要 需要 
安排 合理 的 工作 空间 以 便 用 户 在 使 用 该 设备 时 可 以 找到 一 个 方便 的 站 立 或 就 座 的 位 置 。 对 于 
移动 设备 来 说 ， 用 户 疲 劳 的 风险 更 大 ， 因 此 更 难 实现 可 接受 的 人 因 工 程 学 特性 。 手 持 设 备 必 
须 保 持 与 眼睛 水 平 ， 这 会 使 用 户 的 肌肉 扭伤 ， 而 大 多 效 的 头 戴 式 显 示 天 在 长 时 间 佩 戴 后 都 会 
THRE, 


2.3.12 ”社会 接受 度 


你 愿意 被 看 上 去 有 多 奇怪 ? 移动 计算 设备 现今 得 到 了 广泛 的 应 用 ， 佩 戴 无 线 音频 耳机 已 
经 被 广 为 接 受 。 即 便 如 此 ， 在 公共 场合 佩戴 头 戴 式 显示 器 在 大 多 数 的 社会 环境 中 也 依然 不 
能 被 完全 接受 。 其 原因 可 能 是 头 戴 式 显示 费 仍 然 非常 笨重 ， 让 住 了 用 户 的 眼睛 和 大 部 分 脸 。 
许多 对 增强 现实 有 着 潜在 兴趣 的 用 户 也 因此 在 头 戴 式 显 示 器 变 得 不 那么 显眼 前 避免 使 用 它 
们 。 研 究 人 员 已 经 指出 ,命名 可 能 导致 了 有 限 的 用 户 接 受 度 。“ 头 戴 式 ”显示 器 可 能 比 “ 戴 
在 头 上 的 ”显示 器 更 难以 被 公众 接纳 ， 而 且 事 实 上 一 些 研 究 者 也 更 倾 问 于 后 一 个 术语 [Feiner 
1999] [Cakmakci and Rolland 2006]。 在 本 书 中 ， 我 们 将 继续 使 用 传统 的 “ 头 戴 式 显示 器 ”名 
称 而 不 是 潜在 更 好 的 “ 戴 在 头 上 的 显示 器 ”。 

与 头 戴 式 显示 顺 相 比 ， 固 定式 增强 现实 显示 大 营 造 的 沉浸 感 较 低 ， 但 它们 允许 多 用 户 同 
时 观看 ， 因 此 在 一 定 意 义 上 更 适合 群体 应 用 。 手 持 式 设备 介 于 这 两 者 之 间 ， 尽 管 它们 也 有 上 自 
且 的 人 因 工 程 学 和 社会 接受 的 问题 ， 但 在 目前 和 不 远 的 将 来 可 接受 度 可 能 更 高 。 手 持 一 台 平 
板 电脑 或 智能 手机 ， 通 过 镜头 看 穿 其 后 方 的 场景 会 使 用 户 的 手臂 感到 疲劳 。 同 样 ， 通 过 配备 


摄像 头 的 智能 手机 或 平板 电脑 的 “镜头 ”观察 其 他 人 周围 的 增强 内 容 也 会 被 认为 十 分 粗鲁 。 
用 户 已 经 感受 到 谷歌 眼镜 所 配置 的 摄像 头 进 行 拍摄 的 威胁 ， 这 导致 了 社会 认可 的 问题 [Hong 
2013]， 许 多 研究 人 员 也 思考 了 监控 和 隐私 的 问题 [Mann 1998] [Feiner 1999] [Michael and 
Michael 2013]。 增 强 现实 隐形 眼镜 ( 见 第 14 章 ) 等 较 少 物理 侵入 的 增强 现实 技术 也 许 有 更 高 
的 用 户 接 受 度 ， 但 这 可 能 会 带 来 一 个 完全 不 同 的 群体 和 社会 问题 [May-raz and Lazo 2012]. 


2.4 空间 显示 模型 


我 们 已 经 回顾 了 增强 现实 视觉 显示 的 要 求 和 特性 ， 现 在 给 出 通过 各 种 坐标 转换 的 相互 作 
用 来 处 理 增强 现实 信息 显示 的 过 程 。 如 本 书 前 面 章节 所 述 ， 用 户 观 看 增强 世界 的 过 程 可 能 
包含 多 个 间接 因素 。 观 看 体验 可 以 通过 摄像 机 获取 和 显示 屏幕 进行 调整 。 在 增强 现实 中 ， 
们 依赖 一 个 标准 的 计算 机 图 形 流 水 线 [Hughes et al. 2014] 来 绘制 至 加 在 真实 世界 上 的 覆盖 
面 。 该 流水 线 独立 于 增强 现实 显示 需 ， 包 括 模 型 变换 、 视 图 变换 和 投影 变换 。 

e 模型 变换 : 模型 变换 描述 了 三 维 局 部 物体 坐标 系 和 三 维 全 局 世界 坐标 系 的 关系 以 及 

如 何在 真实 世界 中 和 定位 物体 。 
e 视图 变换 : 视图 变换 描述 了 三 维 全 局 世界 坐标 系 和 三 维 视 图 (观察 者 或 摄像 机 ) 坐标 
系 之 则 的 关系 。 

e 投影 变换 : 投影 变换 描述 了 三 维 视 图 坐标 系 与 二 维 器 件 (屏幕 ) 坐标 系 之 间 的 关系 。 

投影 变换 通常 是 离线 计算 的 ， 但 可 能 需要 随 着 视 场 角 等 摄像 机 内 参 的 变化 进行 动态 更 新 
( 见 第 5 章 )。 其 他 变换 可 以 是 静态 的 ， 因 此 可 以 离线 确定 ， 如 果 在 线 发 生变 化 则 必须 通过 跟 
踪 确 定 。 跟 踩 部 分 将 在 第 3 章 中 详细 讨论 。 

如 果 我 们 和 希望 在 增强 现实 场景 中 移动 真实 物体 ， 则 需要 进行 物体 跟踪 ， 而 静态 物体 的 位 
置 可 以 通过 测量 确定 ， 因 此 不 需要 进行 跟踪 。 物 体 跟 踊 用 于 设置 模型 变换 。 如 果 我 们 只 想 对 
被 跟踪 目标 进行 增强 (而 不 是 未 被 跟 踊 的 静态 物体 )， 可 以 通过 对 被 跟 踊 的 真实 物体 进行 视 
角 变 换 来 代替 给 定 一 个 明确 的 世界 坐标 系 ( 例 如， 在 使 用 独立 的 增强 现实 标记 点 的 情况 下 ， 
详 见 第 3 章 )。 

由 于 涉及 更 多 因素 ， 确 定 视 角 变 换 可 能 更 复杂 ( 见 图 2.17 )。 如 果 用 户 相 对 显示 货运 动 ， 则 
有 必要 进行 头 部 跟踪 甚至 是 眼 动 跟踪 。 如 果 显 示 费 相对 于 真实 世界 运动 ， 则 需要 进行 显示 器 跟 
踪 。 在 使 用 视频 透视 式 显 示 需 时 也 需要 进行 摄像 机 跟踪 ， 其 原因 在 于 视频 透视 式 显 示 侯 让 用 户 
通过 摄像 机 实现 对 真实 世界 的 感知 ， 而 光学 透视 式 显示 器 是 用 户 直接 看 到 真实 世界 。 尽 管 我 们 
可 以 实现 一 个 用 户 、 显 示 融 、 摄 像 机 和 物体 都 独立 移动 的 装置 ， 但 通常 最 多 同时 使 用 两 种 被 跟 
踪 的 对 象 ， 当 然 一 个 系统 仍 可 以 使 用 每 个 组 件 类 型 的 多 种 实例 (用 户 、 显 示 占 、 摄 像 机 、 物 体 )。 
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世界 到 显示 顺 
世界 到 人 了 眼 
图 2.17 ”大 多 数 增强 现实 显示 需 的 空间 模型 可 以 被 定义 为 最 多 五 个 组 件 的 空间 关系 : 用 
户 眼睛 、 显 示 嚣 、 摄 像 机 、 待 增强 的 物体 和 真实 世界 。 我 们 在 这 里 描述 了 最 重 
要 的 坐标 变换 ， 其 中 每 一 个 都 可 以 被 固定 和 校准 、 动 态 跟 踪 或 不 做 约束 








我 们 将 在 本 章 的 后 面部 分 持续 通过 图 2.17 来 概要 说 明 各 种 增强 现实 显示 颖 和 观看 配置 
( 见 图 2.23 以 及 后 续 图 示 )。 


2.5 WEET 


要 详细 理解 当今 增强 现实 视觉 显示 技术 ， 就 必须 考虑 一 系列 的 科学 主题 。 有 关 光 的 物理 
属性 、 光 学 和 全 息 原 理 的 论述 超出 了 本 书 的 讲述 范围 ，Hainich 和 Bimber [2011] 的 书 中 详细 
地 介绍 了 这 些 有 关 显 示 技 术 的 主题 。 本 书 将 简要 阐明 各 种 三 维 显示 技术 之 间 的 差异 ， 关 于 这 
些 概 念 有 一 些 常见 的 误解 ， 而 有 些 概念 是 被 一 些 营 销 材料 有 意 地 混淆 了 。 我 们 将 特别 对 以 下 
几 类 三 维 显示 进行 区 分 : 立体 显示 、 全 息 显 示 、 光 场 显 示 和 体 显 示 。 

我 们 已 经 简要 讨论 了 立体 显示 系统 。 将 分 离 的 图 像 发 送 给 观察 者 的 眼睛 是 将 三 维 内 容 呈 
现 给 观众 的 最 普遍 做 法 。 双 目 近 眼 显示 可 以 自然 地 给 用 户 的 左右 眼 提 供 不 同 的 图 像 。 当 使 用 
监视 器 或 大 尺寸 显示 器 (可 能 由 投影 仪 驱动 ) 时 ， 可 以 采用 不 同 的 技术 来 实现 立体 观看 ， 例 
如 要 求 用 户 佩 戴 各 种 形式 的 主动 快门 眼镜 或 被 动 滤 光 眼镜 CL. RE TYEE). Æ 
论 左 眼 和 右 眼 的 图 像 是 通过 空间 还 是 时 间 复 用 的 方式 、 通 过 同步 还 是 匹配 的 滤波 锅 的 方式 传 
输 ， 最 终 的 结果 总 是 观察 者 会 接收 到 适合 双眼 视点 的 相应 图 像 。 所 谓 的 裸眼 立体 技术 不 需要 
眼镜 ， 它 们 直接 在 显示 器 上 或 在 显示 屏幕 前 进行 左右 通道 图 像 分离 ， 将 不 同 视 点 的 图 像 显示 
在 不 同 的 观察 区 域 ， 这 些 区 域 比 双眼 的 距离 要 小 ， 从 而 每 只 眼睛 都 只 能 观察 到 自己 视角 的 图 
像 ， 典 型 产品 包括 视差 光栅 显示 硕 和 柱状 透镜 显示 天 。 

大 多 数 情 况 下 ， 立 体 显 示 装 置 依赖 于 具有 固定 焦 平面 的 屏幕 ， 但 有 时 立体 显示 系统 会 与 
其 他 成 像 方法 相 结合 [Halle 1994][Huang et al. 20151。 另 外 一 种 实现 三 维 显 示 的 方法 是 真正 
的 体 三 维 显 示 ， 即 成 像 在 三 维 空间 中 ， 光 在 被 用 户 感 知 到 的 三 维 物体 的 三 维 坐标 处 发 射 或 反 
射 [Blundell and Schwartz 1999] [Kimura et al. 2006]. 

全 息 显 示 器 和 光 场 显示 器 是 密切 相关 的 显示 类 别 ， 它 们 之 间 的 界限 有 时 是 模糊 不 清 的 。 
这 两 种 方法 都 涉及 记录 (或 生成 ) 和 播放 代表 特定 场景 的 光波 的 所 有 特性 。 理 想 情况 下 ， 观 
看 真实 的 物理 场景 、 适 当 照 明 条 件 下 的 全 息 记录 或 正确 重建 的 光 场 体验 之 间 没 有 什么 区 别 。 
但 是 实际 上 ， 每 个 技术 仍 有 许多 局 限 性 [Hainich and Bimber 2011] [Wetzstein 2015]. 

全 息 图 通常 利用 相干 (激光 ) 照明 来 产生 和 观察 。 光 场 显示 顺 通 党 通过 非 相 干 光 产 
生 。 光 场 显 示 有 多 种 实现 形式 ， 包 括 体 显示 [Jones et al. 2007]、 多 投影 机 阵列 [Balogh et al. 
2007] 以 及 使 用 微 镜头 阵列 的 近 眼 显示 等 [LanMan and Luebke 2013]。 

“全 息 ” 一 词 最 初 指 的 是 把 光 场 编码 为 激光 照明 光束 和 场景 反射 激光 的 干涉 图 样 的 现象 ， 
通过 改变 感光 介质 的 透明 度 、 密 度 或 表面 轮廓 的 方式 成 像 。 全 息 和 全 息 图 的 术语 已 在 过 去 的 
几 年 里 被 广泛 使 用 ， 并 曾 被 (不 准确 地 ) 用 来 指 代 各 种 棚 棚 如 生 的 三 维 显示 ， 包 括 柱状 透镜 
和 其 他 裸眼 立体 三 维 显示 以 及 被 称 为 “ 佩 珀 尔 约 象 ”的 舞美 技术 ， 该 技术 是 通过 一 块 简单 的 
半 透 明镜 子 以 及 实时 的 内 容 匹 配 和 灯光 变换 实现 的 。 虽 然 这 些 术 语 的 普 遍 含义 正在 随 着 它们 
的 广泛 使 用 而 改变 , 但 出 于 本 书 的 目的 ， 我们 仍 将 坚持 使 用 研究 文献 中 的 术语 。 

我 们 需要 用 哪 种 显示 器 来 展示 一 个 令 人 信服 的 增强 现实 ? Hainich [2009] 认为 只 需要 一 
种 运行 良好 的 个 人 增强 现实 显示 方式 ， 最 理想 的 情况 是 用 一 种 非 侵 和 人、 舒适、 高 分 辨 率 、 大 
视 场 、 市 有 高 动态 范围 和 完美 跟踪 的 近 眼 显示 天 来 蔡 代 市 面 上 所 有 的 电脑 显示 复 。 这 一 愿景 
非常 令 人 叹服 ,在 可 以 预见 的 未 来 ， 增 强 现 实 将 结合 多 种 显示 技术 ， 包 括 个 人 近 眼 显示 、 手 
持 显示 和 潜在 穿戴 显示 、 固 定 大 屏幕 显示 和 体 显 示 ， 以 及 真实 环境 中 的 投影 显示 等 。 
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接 下 来 我 们 将 回顾 这 些 与 增强 现实 相关 的 显示 技术 。 按 照 Raskar [2004] 的 描述 ， 我 们 
将 按照 与 人 眼 距 离 增 加 的 顺序 来 组 织 我 们 对 增强 现实 视觉 显示 设备 的 讨论 ( 见 图 2.18 )。 我 
们 从 头 戴 式 显示 开始 ， 然 后 是 手持 式 显 示 、 固 定式 显示 和 投影 式 显 示 。 


> Weare :手持 式 显示 器 | 国定 式 显 示 器 ， 投影 式 显示 器 


头 部 空间 身体 空间 世界 空间 


图 2.18 增强 现实 显示 可 以 根据 眼睛 到 显示 硕 的 距离 进行 分 类 


2.5.1 ARETE 


最 常见 的 增强 现实 显示 需 可 能 就 是 头 戴 式 显示 器 。 在 增强 现实 系统 中 使 用 头 戴 式 显示 器 
可 以 追溯 至 Sutherland 的 开创 性 工作 。 他 的 “ 达 摩 克利 斯 之 剑 ” 头 戴 式 显示 需 由 于 其 自身 重 
量 而 悬挂 在 天 花 板 上 ， 并 在 光学 透视 系统 中 配置 了 CRT 屏幕 [Sutherland 1968]. 

设计 头 戴 式 装置 需要 付出 大 量 的 精力 [Kiyokawa 2007]。 头 戴 式 设备 应 该 是 不 引 人 注 目 
且 和 舒适 的 ， 同 时 还 应 该 提供 尽 可 能 高 的 观看 质量 。 在 2.3 节 中 讨论 过 的 系列 技术 和 工效 学 参 
数 对 头 戴 式 显示 需 的 设计 非常 重要 [Rolland 和 Cakmakci 2009]. 

近 眼 显示 器 至 关 重 要 的 一 点 是 显示 器 穿戴 的 人 因 工 程 学 。 显 然 ， 一 个 头 戴 式 显示 费 应 该 尽 
可 能 轻 ， 特 别 是 为 了 适应 长 时 间 使 用 。 除 了 电子 器 件 和 光学 系统 外 ， 外 壳 或 安装 组 件 将 在 很 大 
程度 上 决定 其 重量 ( 见 图 2.19 ) : KARR RW, (ARES ASS i AAAS, MURA 
置 将 会 更 具 吸 引力 ， 例 如 飞行 员 或 消防 员 等 。 卡 扣 式 的 设计 可 以 将 其 附加 到 普通 的 眼镜 或 太阳 
镜 上 ， 但 是 当 显示 内 容 超 出 主要 视 场 时 会 导致 “看 到 周围 ”的 结果 。 如 众所周知 的 谷歌 眼镜 
这 样 的 空间 布局 更 适用 于 可 和 穿戴 信息 (文本 ) 的 显示 ， 但 不 太 适 合 透视 增强 现实 显示 。 般 入 在 
面 尝 上 的 显示 需 是 一 个 有 效 的 解决 方案 ， 但 是 由 于 显示 需 的 重量 往往 会 累积 在 用 户 的 面前 ， 因 
此 知 要 仔细 设计 框架 ， 通 过 适当 的 装置 保持 在 合适 的 位 置 。 框 架 或 外 过 应 当 可 以 根据 不 同 的 头 
部 尺寸 进行 调节 以 保证 佩戴 的 舒适 性 。 也 应 当 在 头 部 附近 保证 足够 的 空气 流动 以 防止 出 汗 。 
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图 2.19 ANT Se AN eee A ET, a) ARRERA, KW Rockwell Collins SimEye。 
b) Kinstibasés, KMAR. c) MS mR ir, XW Epson Moverio 


一 个 理想 的 增强 现实 近 眼 显示 器 应 该 是 什么 样子 的 呢 ? 在 我 们 把 注意 力 放 在 与 我 们 面前 
的 物理 环境 很 好 集成 的 双 目 视觉 支持 的 三 维 增 强 上 时 ， 一 个 较 大 的 视 场 覆盖 区 域 在 这 种 情况 
下 是 有 益 的 ， 否 则 大 量 的 三 维 增强 内 容 需 要 被 剪 切 ， 导 致 用 户 需要 扫描 环境 来 理解 它们 。 此 
外 还 需要 一 些 其 他 的 设计 决定 ， 首 先 并 且 最 重要 的 是 增强 方法 的 选择 : 应 该 使 用 光学 还 是 视 
HAIER AR? 

1. 光学 透视 式 头 戴 式 显示 器 

光学 透视 式 头 戴 式 显示 需 需 要 光学 组 合 咒 来 混合 虚拟 和 现实 。 类 似 于 20 世纪 90 FREK 
索尼 的 Glasstron 光学 透视 式 显 示 舌 ， 标 准 的 做 法 是 用 一 个 分 束 器 将 LCD 显示 器 的 影像 反射 
到 观察 者 的 眼中 ， 同 时 观察 者 可 以 自由 地 看 到 前 方 的 景象 (如 图 2.3 和 图 2.20 所 示 )。 光 学 
透视 式 增 强 现 实 显示 器 的 一 个 非常 具有 挑战 性 的 问题 是 ， 如 何 控制 显示 的 光照 水 平 以 便 观 察 
者 可 以 看 到 外 面 的 世界 。 光 学 透视 式 显 示 器 中 的 Glasstron %7 fe AN ae EST Rak HA S — 
个 可 调节 的 全 局 液晶 遮 置 (远离 眼睛 )， 用 户 可 以 调整 遮 墨 的 透明 度 。 由 于 真实 世界 光照 的 
高 动态 范围 特点 ， 即 使 是 采用 遮 单 也 不 能 提供 足够 的 可 调 性 。 在 明亮 的 阳光 下 ， 遮 单调 整 到 
最 黑 也 不 能 保证 用 户 看 到 分 束 器 反射 的 计算 机 影像 的 细节 特征 。 而 在 室内 环境 中 ， 一 个 调整 
到 最 大 透明 度 的 遮 单 也 无 法 提供 周边 环境 足够 明亮 的 视图 。 这 凸显 了 用 简单 的 分 束 器 作为 光 
学 透视 式 头 戴 式 显示 器 光学 组 合 器 的 一 个 局 限 性 。Kress 和 Starner [2013] 回顾 了 头 戴 式 显 示 
器 和 部 件 的 最 新 技术 ， 比 较 了 工业 中 使 用 的 各 种 光学 合成 技术 。 
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图 2.20 索尼 Glasstron LDI-D100B (作为 哥伦比亚 MARS 系统 的 一 部 分 进行 了 和 定制 改 
造 )。 由 哥伦比亚 大 学 提供 


Lumus( 见 图 2.21) 等 近期 的 光学 透视 式 显 示 需 设计 利用 了 更 先进 的 光学 技术 ， 在 
Lumus 的 设计 中 微型 投影 机 的 图 像 输 出 到 一 个 特殊 的 校 镜 ， 光 通过 校 镜 内 部 的 反射 和 折射 进 
行 传播 。 

近 眼 光学 透视 式 增 强 现 实 一 个 尚未 解决 的 问题 是 如 何 将 宽 视 野 与 一 个 小 而 轻 的 形状 因 和 又 
相 结合 。 一 个 更 大 的 视角 自然 会 带 来 一 个 更 接近 人 眼 的 显示 (高 分 辨 率 )。 这 一 愿景 市 来 了 
自身 的 问题 ， 例 如 ， 如 何 应 用 必要 的 聚焦 光学 锅 件 ? Innovega 公司 的 iOptik 平台 将 光学 元 
件 集 成 到 隐形 眼镜 上 ， 利 用 中 央 微 透镜 使 观察 者 专注 于 眼镜 式 近 眼 显 示 。 中 心 的 隐形 眼镜 部 
分 使 用 了 偶 振 滤 光 需 来 确保 仅 从 近 眼 显示 需 穿 过 的 光 以 这 种 方式 聚焦 ， 而 从 周围 环境 发 出 的 
光 则 不 会 。 隐 形 眼 镜 的 周边 部 分 阻挡 从 显示 器 发 出 的 光 ， 同 时 允许 环境 光 穿 过 。 通 过 这 种 方 
式 ， 观 看 者 可 以 看 到 注视 焦点 处 的 显示 ， 同 时 保持 对 周围 环境 的 目 然 调 节 。 用 户 是 否 愿 意 为 


拥有 广角 坊 蝇 现实 体验 而 同时 佩戴 定制 的 隐形 眼镜 和 近 眼 显示 顺 还 有 竺 观察 ， 但 眼镜 不 需要 
比 普 通 太 阳 镜 更 大 。 
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输入 光学 元 件 


输出 光学 元 件 


图 2.21 Lumnus 的 波导 光学 硕 件 技术 通过 一 个 特殊 的 光学 校 镜 传播 图 像 。 上 图 由 Jens 
Grubert 提供 


É (pinlight) [Maimone et al. 2014] 是 一 种 新 型 的 光学 透视 式 头 戴 式 显示 需 原 型 ， 同 
样 下 在 解决 近 眼 焦点 问题 ( 见 图 2.22 ) 。 它 使 用 一 种 新 型 光学 设计 来 产生 图 像 ， 类 似 于 密集 
排列 的 投影 仪 。 该 阵列 由 LCD 面板 和 点 光源 阵列 组 成 。 点 光源 通过 向 光学 校 镜 投射 光 并 使 
其 在 精确 制造 的 出 光 口 处 传 出 而 形成 。LCD 面板 被 放置 在 用 户 的 离 焦 处 ,但 投影 的 又 加 产 
生 视 网 膜 上 的 聚焦 图 像 。 这 个 显示 器 目 前 只 是 一 个 研究 原型 ， 具 有 令 人 兴奋 的 可 能 性 ,但 距 
离 完 全 实用 仍然 存在 一 些 障 碍 。 为 了 使 显示 需 图 像 具 有 合理 的 高 分 辨 率 ， 需 要 跟踪 眼睛 相对 
于 显示 滞 的 位 置 。 我 们 预计 未 来 的 近 眼 显示 僚 将 具有 眼球 跟踪 的 功能 ， 虽 然 乙 有 一 些 制造 商 
的 早期 原型 ， 但 这 种 技术 的 集成 仍 处 于 初期 阶段 。 真 正 的 移动 眼球 跟踪 解决 方案 目前 仍 处 于 
消费 虚拟 现实 和 增强 现实 的 价格 范围 之 外 。 
另外 一 个 最 新 发 展 是 近 眼 光 场 显示 器 。 这 类 显示 需 具 有 相对 自由 的 眼球 运动 和 自动 调 焦 
功能 ， 在 工作 区 域内 通过 其 光路 可 以 将 正确 的 感知 图 像 传递 给 用 户 在 任意 视点 想 要 聚焦 的 位 
置 。Lanman 和 Luebke [2013] 展示 的 NVIDIA 原型 使 用 折射 微 阵 列 透镜 ,但 不 适用 于 光学 
透视 式 系统 。Maimone 等 人 [2014] 指出 ， 只 要 有 足够 的 像素 密度 ， 点 光 显 示 器 也 可 以 被 制 
成 光 场 显示 需 ， 不 但 具有 光学 透视 的 无 标 视点 的 优点 ， 还 能 满足 人 有 眼 跟踪 的 要 求 。 "无 跟踪 
光 场 配置 ”的 针 孔 显示 器 允许 眼球 在 一 个 眼 上 暗箱 区 域内 进行 有 限 的 运动 ， 然 而 其 代价 是 图 像 
NR AB CA x 间 分 辩 率 的 显著 损失 。 
近日 公布 的 与 微软 的 HoloLens 项 目 以 及 已 收 到 来 自 谷 歌 和 高 通 等 公司 超过 5 亿美 元 投 


© http://www.microsoft.com/microsoft-hololens/ 


资 的 秘密 初创 公司 MagicLeap “相关 的 消息 引发 了 各 相关 技术 的 工作 原理 的 猜测 ， 





b) 


图 2.22 a) 审 有 密集 点 光源 阵列 的 面板 。b) Stare (由 北 卡 罗 来 纳 大 学 教堂 
山 分 校 Andrew Maimone 提供 ) 


在 微软 的 案例 中 ，HoloLens 的 开发 版 为 一 蒜 无 线 光学 透视 式 增 强 现 实 设 备 ， 并 在 公 he 
2015 年 BUILD 开发 者 大 会 上 展示 了 其 功能 。 该 Veet wae 刻 ， 它 整合 了 重要 的 增 
现实 搁 术 ， 如 日 定义 跟 踊 和 深度 传 感 、 空 间 音 频 和 最 先进 的 光学 透视 显示 器 (尽管 至 加 a 
有 些 受 限 )， 这 些 都 以 无 线 眼 曙 的 形式 呈现 。 微 软 用 “全 息 计 算 ” 来 描述 这 个 项 目 ， 并 指出 
其 HoloLens 项 目 可 以 提供 显示 高 分 辩 率 全 上 息 图 的 功能 。 虽 然 显示 光路 可 能 使 用 了 全 息 元 件 ， 
但 早期 用 户 体 验 似 T 表明 第 一 个 原型 采用 了 立体 显示 

通过 访谈 、 与 其 他 一 些 利 益 相 关 者 进行 沟通 以 及 已 发 表 的 关于 公司 推测 技术 的 专利 
表明 ，MagicLeap 正在 围绕 “数字 光 场 技术 ”开展 工作 ， 声 称 可 以 解决 之 前 讨论 过 的 辐 
转调 节 神 突 问 题 。 相 关 专 利 显 示 其 研究 工作 主要 集 ji 在 华盛顿 大 学 的 光纤 扫描 显示 上 


[Schowengerdt 2010] [Schowengerdt and Seibel a iC EE TAN ae Peas pT KY RS 
用 一 组 与 透镜 距离 不 同 的 光纤 阵列 ， 从 而 形成 一 个 到 加 的 多 焦点 光束 。 用 于 四 维 光 场 的 不 同 


座 度 平面 的 层 生 波导 阵列 也 可 能 是 项 目 技术 中 的 
MicroVision Nomad 等 视网膜 扫描 显示 器 的 早期 pr ar 版 本 没有 能 够 得 到 大 量 的 应 用 。 视 
网 膜 扫 摘 显示 画 直 接 在 眼睛 视网膜 上 绘制 光栅 图 像 ， 这 是 图 像 形 成 的 唯一 位 置 ， 用 户 感 受 


9 _http://www.magicleap.com 


到 的 图 像 是 漂浮 在 他 们 面前 的 空间 中 的 。2004 年 的 移动 增强 现实 综述 [Hallerer and Feiner 
2004] 中 提 到 视网膜 扫描 显示 技术 是 为 数 不 多 的 能 够 在 户外 的 阳光 直射 中 产生 足够 亮度 和 对 
比 度 的 候选 技术 。 视 网 膜 扫描 显示 器 最 近 的 商业 产品 包括 兄弟 公司 的 AiRScouter 和 Avegant 
Glyph; 该 公司 也 可 以 提供 其 他 挑战 技术 ， 如 全 县 波导 光学 等 。 

不 管 实 际 的 技术 是 什么 ， 愿 景 是 希望 新 的 显示 融 能 够 克服 已 有 方法 的 局 限 ， 同 时 尽 可 能 
保持 体积 小 、 重 量 轻 的 特点 。 有 如 此 多 的 因素 对 确保 愉悦 感 和 可 持续 的 增强 现实 体验 非常 重 
要 ， 以 至 于 很 难 预测 哪 种 技术 将 占 上 风 ， 最终 需 要 适当 的 人 因 工 程 学 和 便捷 性 (轻便 的 “ 穿 
4a VERE” ) 使 用 户 接受 增强 现实 并 定期 使 用 。 对 于 需要 用 户 不 断 地 在 物理 世界 和 虚拟 三 维 增 
强 现 实 之 间 切 换 焦点 的 应 用 ， 多 聚焦 图 像 生 成 〈 如 光 场 或 全 上 县 技术 ) 会 有 益处 ,但 可 能 不 会 
是 一 个 被 大 量 采 用 的 绝对 需求 。 

与 本 草 前 面 介 绍 的 空间 显示 模型 相 一 致 ， 我 们 从 光学 透视 式 近 眼 显示 器 开始 用 这 些 组 件 
的 空间 关系 图 来 说 明显 示 类 型 。 某 些 参数 可 以 离线 校准 ， 尽 管 非 刚性 安装 或 材料 变形 可 能 引 
入 较 小 的 误差 ,但 它们 仍 被 认为 在 操作 过 程 中 保持 恒定 。 在 空间 关系 图 中 ， 我 们 描述 了 这 样 
一 个 第 数 和 标定 转换 ， 将 它们 用 标 有 C 的 线 来 描述 。 在 每 一 帧 中 其 他 参数 发 生变 化 并 需要 
锌 跟踪 ， 这 样 的 转换 用 一 个 标 有 工 的 线 来 摘 述 。 图 中 擅 述 的 两 个 组 件 之 间 没 有 绘制 连接 线 意 
味 着 我 们 不 知道 或 不 关心 它们 的 空间 关系 。 

光学 透视 显示 天 基本 组 件 之 间 的 空间 关系 相对 人 简单， 不 一 定 需要 摄像 机 参与 工作 ， 当 然 
摄像 机 也 经 贡 被 添加 进来 以 实现 基于 视 党 的 跟踪 和 场景 理解 〈 见 本 书 第 4 章 的 讨论 )。 

光学 透视 式 头 戴 式 显示 锅 通 笛 包 括 一 个 被 放置 在 相对 人 眼 位 置 不 变 的 显示 上 需 。 我 们 可 以 
跟踪 显示 闪 相 对 于 世界 坐标 的 位 置 ， 而 人 眼 到 显示 天 的 变换 必须 预先 标定 ， 最 好 是 在 戴 上 头 
Ris banat Zale Ape (OLA 2.23 )。 最 近 的 研究 工作 [Itoh and Klinker 2014] 将 眼 动 仪 安 
痰 在 头盔 上 ， 从 而 实现 人 眼 -显示 右 校准 的 持续 更 新 ， 这 消除 了 对 手动 校准 的 需求 ， 并 且 能 
鲁 棱 地 避免 头 上 头 戴 式 显示 冀 不 经 意 的 移动 。 








图 2.23 a) WFAA b) 市 有 眼球 跟踪 的 光学 透视 式 头 戴 式 显示 希 


2. 视频 透视 式 头 戴 式 显示 着 

视频 透视 式 头 戴 式 显 示 融 在 非 透 视 式 头 戴 式 显示 二 上 增加 了 一 个 或 多 个 摄像 机 。 通 过 这 
MAER, 用户 的 眼睛 、 显 示 大 和 摄像 机 这 三 个 组 件 构成 了 一 个 刚性 配置 ( 见 图 2.24 )。 这 些 
组 件 必 须 进 行 校 准 ， 同 时 这 个 刚性 流 配 到 世界 坐标 的 转换 也 必须 被 跟 踊 。 尽 管 不 是 必需 的 ， 
但 通常 通过 摄像 机 跟踪 来 实现 。 与 光学 透视 式 头 戴 式 显示 需 类 似 ， 我 们 可 以 利用 眼球 跟踪 设 


fe) 展 这 一 配置 。 


Uo 


图 2.24 a) 视频 透视 式 头 戴 式 显示 人 各。b) A HR RAR ER AY) AL i a LS Sk BN ATEN it 






设计 视频 透视 式 头 戴 式 显示 需 所 面临 的 一 个 困难 是 匹配 使 用 者 所 看 到 真实 世界 的 视野 ， 
即使 现在 世界 场景 是 通过 摄像 机 记录 的 。 当 然 ， 这 些 摄像 机 使 用 不 同 于 放置 在 观众 眼前 显示 
人 的 视野 或 视线 是 可 以 接受 的 ， 其 至 可 能 是 有 利 的 。 例 如 ， 如 果 谷 歌 上 腿 镜 ( 见 图 2.19b) 被 
用 作 视 频 透 视 式 显示 帮 ， 显 示 带 的 摄像 机 视 场 角 比 用 户 眼 睛 一 角 的 小 显示 窗 的 对 角 线 视 场 角 
要 宽 得 多 ， 所 以 用 这 个 更 广阔 的 视野 作为 现实 增强 的 背景 才 有 意义 。 正 如 早期 视觉 实验 所 证 
实 的 ， 即 使 在 完全 沉浸 式 体 验 中 ， 观 众 也 会 很 容易 适应 光学 畸变 (其 至 反 转 ) [Kohler 1962]. 
然而 ， 视 频 视 野 与 用 户 直 接 观 看 的 视野 对 齐 (所 谓 无 视差 显示 ) 是 首选 的 增强 现实 体验 ， 它 
不 改变 用 户 对 世界 的 感知 ， 并 能 模拟 视频 透视 式 显示 器 所 提供 的 无 颖 视图 。 
State 等 人 [2005] 设计 了 一 个 无 视差 的 视频 透视 式 头 戴 式 显示 器 ， 在 头 部 上 方 为 每 只 眼 
睛 各 放置 了 一 台 摄 像 机 ， 通 过 放置 一 面 倾斜 的 镜子 实现 了 通过 摄像 机 捕捉 并 传送 的 两 个 近 场 
显示 噩 正确 的 视线 和 视 场 ( 见 图 2.25 )。 数 年 前 佳能 混合 现实 实验 室 开 发 出 第 一 台 这 种 类 型 
的 商用 头 戴 式 显示 器 COASTAR [Uchiyama et al. 2002] ( 见 图 2.14 )。 





图 2.25 在 带 有 反射 镜 的 眼睛 上 方 使 用 摄像 机 的 视频 透视 式 头 戴 式 显示 带 示 例 。Andrei 
State 设计 ，2005 (由 北 卡罗来纳 大 学 教 向 山 分 校 Andrei State 提供 ) 


AR Rift [Steptoe et al. 2014] (ILEI 2.26) 是 视频 透视 式 头 戴 式 显示 骼 最 新 的 案例 。 它 的 
目标 不 是 提供 准确 的 无 视差 视 景 ， 而 是 通过 仔细 调整 Oculus Rift 的 摄像 机 和 显示 屏幕 的 视 
轴 来 创建 宽 视 场 的 增强 现实 显示 





图 2.26 AR-Rift， 由 William Steptoe 改良 的 有 两 台 摄像 机 的 Oculus Rift (由 William 
Steptoe 提供 ) 


长 期 以 来 ， 开 发 以 虚拟 现实 和 增强 现实 为 目的 的 高 品质 近 眼 显示 “i 一 下 被 视 为 有 利 可 
图 。 除 了 少数 例外 (例如 ，20 世纪 90 4EAR ARH Re Glasstron 系列 )， 这 种 显示 需 的 生产 并 
未 集中 在 一 个 潜在 的 大 市 场 。 提 供 高 分 辩 率 近 眼 显示 顺 可 能 性 的 规则 改变 者 是 移动 设备 市 场 
(智能 手机 和 平板 电脑 ) 中 sideband LCD 和 OLED 显示 器 。 

为 了 通过 附加 俐 单 光 学 元 件 将 普 适 的 高 分 辨 率 手 持 显示 融 改 造 为 近 眼 显示 器 ， 南 加 州 大 
学 的 Mark Bolas 和 他 的 同事 们 在 IEEE VR 2012 会 议 上 首次 介绍 了 被 称 为 FOV2GO 的 DIY 
纸板 立体 虚拟 现实 显示 硕 和 软件 ， 这 项 技术 利用 手机 应 用 程序 提供 左右 分 离 立 体 视 图 ， 将 
智能 手机 转变 为 头 戴 式 虚拟 现实 设备 。 信 助 于 大 多 数 智能 手机 具有 的 后 置 摄像 头 ， 该 解决 
方案 还 可 以 提供 视频 透视 式 增 强 现实 显示 功能 。Bolas 曾 于 2006 年 在 Fakespace 实验 室 开 发 
T WIDE5 虚拟 现实 头 戴 式 显示 器 ， 但 其 超过 30 000 美元 的 零售 价格 意味 痢 它 并 不 适用 于 消 
费 电 子 市 场 。 随 痢 越 来 越 多 的 低 成 本 高 分 辩 率 显示 天 的 出 现 ， 这 和 直接 促进 了 虚拟 现实 和 增强 
现实 头 戴 式 显示 器 开发 商 的 研发 工作 ， 包 括 Oculus Rift、 三 星 GearVR ( 见 图 2.6 ) 和 谷歌 
Cardboard - 

我 们 已 经 回顾 了 光学 透视 式 和 视频 透视 式 显 示 徐 ， 现 在 重新 审视 我 们 对 理想 的 近 眼 显示 
器 所 提出 的 问题 。 这 显然 取决 于 应 用 和 背景 : 增强 现实 的 使 用 是 短暂 的 还 是 持续 很 长 一 段 时 
Ak 增强 现实 设备 局 用 之 后 能 否 摘 下 是 否 重要 ?增强 现实 使 用 的 位 置 受 限制 吗 ， 或 者 增强 现 

实 的 交互 是 否 可 以 发 生 在 任何 地 方 ， 是 室内 还 是 室外 ? 这 些 只 是 一 些 可 能 影 啊 我 们 答案 的 问 
题 。 如 果 没 有 技术 限制 ， 答 案 可 能 更 容易 确定 ， 并 且 可 能 不 需要 做 出 折 中 。 在 这 种 情况 下 ， 
我 们 可 能 希望 拥有 一 个 感受 不 到 (例如 ， 隐 形 眼镜 设计 )、 和 舒适 (不 会 被 察觉 到 甚至 对 眼睛 舍 
适度 有 益 )、 方 便 (总 是 开启 并 且 不 需要 充电 或 维修 )、 光 学 透视 (不 影响 我 们 观察 真实 世界 )、 
高 动态 范围 (在 所 有 可 能 的 光照 条 件 下 工作 )、 人 有 眼 极限 分 辩 率 (感受 不 到 像素 点 )、 全 人 有 眼 
观测 视野 (没有 讶 区， 提供 全 和 覆盖 视 场 )、 真 正 的 三 维 深 度 双 目 显 示 (没有 辐 转 调节 冲突 )、 
正确 遮挡 (除非 有 需求 ， 没 有 鬼 影 般 的 透明 履 盖 ) 以 及 保证 宕 石 般 坚 固 和 稳定 的 跟 踊 、 场 景 
建 模 和 增强 现实 应 用 的 各 种 传 感 费 。 我 们 是 否 提 到 这 于 设备 的 价格 不 要 超过 100 美元 ? 


有 关 现 有 的 近 眼 增强 现实 显示 技术 和 感知 问题 的 细节 可 参考 Livingston “ A [2013] 专 
著 的 有 关 章 节 以 及 一 些 综述 报告 [Kiyokawa 2007] [Rolland and Cakmakci 2009] [Hainich and 
Bimber 2011] [Kiyokawa 2012] [Kress and Starner 2013]. 

Di ERA FR TTR on ee TIC. AA ITTY SK SA AN ts aE SK 
影 显示 器 (HMPD), ZEA Se Aa a opt i BE BR AY Fe Ge BS REARS EEIT fa BS AY HHI o 
PEP ER TEE EE BE PS aN to 


2.5.2 FFI aa 

智能 手机 和 平板 电脑 的 迅速 发 展 使 得 手持 式 显示 需 成 为 当今 最 流行 的 增强 现实 平台 ， 
通过 后 置 摄像 头 的 捕捉 可 以 实现 视频 透视 式 体 验 〈 见 图 2.27 )。 考 虑 到 摄像 机 通常 是 在 设 
备 的 背面 向 前 拍摄 ,通常 需要 至 少 保持 设备 在 胸部 的 高 度 。 这 个 姿势 可 能 会 在 相当 短 的 时 
间 内 诱发 疲劳 ; 此外， 很 难 一 直 保 持 手持 设备 平稳 来 观看 所 有 的 细节 。 事 实 上 ， 显 示人 天 在 不 
需要 时 可 以 被 收 起 来 有 利 有 弊 。 这 一 方面 消除 了 一 直 在 头 部 等 位 置 穿戴 增强 现实 设备 的 需求 ， 
而 另 一 方面 则 影响 了 实时 性 ， 因 为 把 手持 式 显 示 需 从 口袋 里 拿 出 来 对 于 短期 使 用 来 说 可 能 太 
麻烦 了 。 





a) b) 


图 2.27 ”一 个 手持 式 增 强 现 实 显 示 器 可 以 通过 未 经 修改 的 智能 手机 或 平板 电脑 构建 《由 
Daniel Wagner 提供 ) 


FF TAN APE SE Pa AY Ob as tt AGL EH ze Ee LE, SAN a BB RLY ER n] 
以 事先 进行 校准 。 在 大 多 数 情况 下 ， 将 通过 摄像 机 跟踪 设备 相对 于 周围 世界 的 姿态 变化 ， 但 
也 可 以 使 用 其 他 类 型 的 跟 踊 方式 。 

最 近 的 一 个 研究 进展 是 用 户 视 点 而 不 是 设备 视点 的 显示 天 〈 见 图 2.28), thie, we 
备 不 只 是 从 摄像 机 视点 显示 增强 的 视频 图 像 而 不 考虑 用 户 的 位 置 ， 用 户 也 将 被 跟 踩 [Hil 
2011] [Baričević et al. 2012]。 人 例如， 可 以 通过 许多 设备 内 置 的 前 向 摄像 头 实现 用 户 到 设备 的 
跟踪 。 需 要 注意 的 是 ， 这 种 配置 要 比 传统 的 视点 显示 毁 贯 得 多 ， 其 原因 在 于 不 仅 需 要 两 个 独 
立 的 跟踪 系统 ， 而 且 还 需要 泻 染 后 置 摄像 头 采 集 的 影像 。 这 可 以 通过 对 后 置 摄像 头 获取 的 视 
频 进 行 变 换 来 完成 (必须 有 足够 宽 的 视 场 ， 以 保证 用 户 相 对 于 设备 的 所 有 可 能 视点 都 被 覆盖 ) 
[Hill et al. 2011] [Tomioka et al. 2013]， 或 者 通过 重建 该 设备 看 到 的 三 维 场 景 来 实现 ， 例 如 通 
RIE EIR [Baričević et al. 2012] 或 立体 重建 [Barigevic et al. 2014]. 





O 





c) 


图 2.28 a) 这 有 设备 视 上 总 的 手持 式 显 示 郑 。b) 融 有 用 户 视点 的 手持 式 显 示 需 。c) 带 有 
用 户 钢 点 的 手持 式 显 示 需 需要 跟 踩 摄像 机 和 用 户 视 点 (图 a 和 图 b 由 Domagoj 
Baricevic 提供 ) 


EA E RE FOLAF iH, FE A aa OR tk E PCE, 以 及 这 些 设备 已 成 为 上 下 文 相 
天 或 “情境 ”计算 的 关键 推动 者 ， 手 持 式 平台 作为 改变 游戏 规则 的 用 户 与 物理 世界 界面 的 
增强 现实 的 愿 巡 并 不 奇怪 。 在 接 下 来 的 草 节 中 ， 我 们 将 看 到 更 多 的 手持 式 增 强 现 实 的 应 用 示 
例 。 然 而 ， 手 持 设 备 的 视频 透视 式 魔 镜 增 强 现 实 视 景 范式 是 否 会 真正 成 为 一 个 人 们 不 断 使 用 
的 界面 仍 有 竺 观察。 新 发 明 的 近 眼 或 可 穿戴 类 型 显示 做 是 否 将 进一步 推进 增强 现实 的 进步 ? 
早期 的 研究 工作 比较 了 针对 视觉 搜索 和 选择 [Wither et al. 2007] 或 移动 增强 现实 游戏 [Braun 
and McCall 2010] 等 具体 任务 的 手持 式 和 头 戴 式 增强 现实 接口 ， 比 较 结果 表明 头 戴 式 显示 技 
术 并 不 具有 明显 优势 。 相 比 之 下 ,已 有 报道 表明 与 静态 指令 CFE Arak lE FARER AE) 
相 比 ， 市 有 头 部 跟 踊 的 增强 现实 在 维修 任务 中 具有 明显 的 优势 [Henderson and Feiner 2009]. 


2.5.3 HAERERE 


EIDER., RESELE EAA RSE AR ie A E ER Ar A ELTE 
增强 现实 的 对 应 位 置 来 模拟 其 他 类 型 的 显示 左 。 即 使 在 这 样 一 个 未 来 场景 ， 真 实 的 物理 显示 
也 具有 明显 的 益处 ， 可 以 作为 与 非 增 强 现 实 受 众 的 群体 交流 工具 。 同 时 ， 我们 周围 的 世界 到 





48 Hp 2H 


处 都 是 各 种 各 样 的 显示 装置 ， 所 以 我 们 不 妨 考虑 一 下 它们 的 增强 现实 应 用 。 在 本 节 中 ， 我 们 
简要 地 讨论 桌面 显示 需 、 虚 拟 镜 像 、 虚 拟 展柜 和 窗 式 显示 需 。 

1. 桌面 显示 器 

最 简单 的 增强 现实 显示 需 是 条 面 显示 需 。 例 如 ， 一 个 珊 有 网 络 摄像 头 的 台式 电脑 
( 见 图 2.29a) 或 内 置 摄像 头 的 笔记 本 电脑 ( 见 图 2.29b) 足以 建立 一 个 视频 透视 式 显 示 器 。 
通过 摄像 装置 提供 视频 和 跟 踊 信 息 为 这 种 经 济 方案 提供 了 可 能 性 。 因 此 ， 跟 踊 系 统 必 须 
能 够 提取 摄像 机 相对 于 一 个 或 多 个 真实 物体 的 位 姿 。 当 然 ， 这 种 方法 文 持 的 工作 空间 通 
第 相当 小 。 





b) 


图 2.29 a) 果 面 增强 现实 显示 带 可 以 通过 手 上 的 眼球 隐喻 来 构建 ， 其 中 跟踪 摄像 机 雍 并 
将 其 捕捉 的 画面 传送 到 显示 右上。 在 该 款 应 用 中 ， 我们 跟踪 摄像 机 相对 于 物体 
(用 户 的 手 ) 的 位 姿 变 化 ， 该 物体 被 识别 为 标记 点 并 进行 增强 。b) 摄像 机 经 常 
是 固定 的 ， 覆 兰 一 定 的 工作 区 域 ， 在 该 区 域内 进行 现实 增强 。 类 似 地 ， 我 们 跟 
蹊 摄像 机 相对 于 移动 物体 《棋盘 格 ) 的 位 姿 变化 


用 户 手 持 摄 像 机 时 的 配置 通常 被 称 为 “手中 眼球 ”[Robinett and Holloway 1992]。 为 了 
方便 起 见 ， 摄 像 机 通常 放置 在 三 脚 架 或 监视 器 边框 等 固定 地 点 。 在 后 一 种 配置 中 ， 摄 像 机 的 
光 轴 指向 用 户 观 看 的 相反 方向 ， 从 而 导致 潜在 的 左右 翻转 。 

2. 虚拟 镜像 

虚拟 镜像 使 用 前 置 摄像 头 拍 摄 用 户 的 照片 并 沿 着 其 垂直 轴 反 射 成 像 ， 从 而 创建 观看 镜子 
的 效果 。 这 种 类 型 的 设置 最 适合 于 以 某 种 方式 全 加 用 户 的 应 用 ， 例 如， 人 允许 用 户 试 穿 虚 拟 服 
装 或 试 戴 眼镜 之 类 的 饰物 。 该 系统 可 以 方便 地 利用 已 经 内 置 视 频 会 议 摄像 头 的 计算 机 进行 构 
建 。 为 了 栓 对 于 用 户 位 姿 正确 地 放置 物体 ， 需 要 跟踪 用 户 的 身体 和 头 部 ， 这 可 以 通过 一 个 或 
多 个 摄像 机 来 完成 ， 如 图 2.30 所 示 。 


当 屏 幕 只 是 描述 被 跟踪 和 增强 的 用 户 时 ， 不 管用 户 和 屏幕 之 间 的 空间 关系 如 何 ， 我 们 
都 不 需要 专门 跟踪 用 户 的 视点 〈 头 或 眼睛 ) (E 2.30b)。 相 反 ， 如 果 我 们 希望 显示 希 真 正 
像 一 个 物理 反射 镜 那 样 根据 不 同 的 视角 反射 显示 需 前 面 的 空间 ， 则 需要 跟 蹊 用户 的 视点 〈 见 
图 2.30c)。 需 要 注意 的 是 ， 图 中 从 眼球 图 标 发 出 的 跟 踩 线 也 会 通 回 盒子 、 摄 像 机 或 显示 化 图 
标 。 这 些 空间 关系 图 有 许多 等 价 图 表示 方法 。 





图 2.30 a) 视频 透视 式 虚拟 镜像 。 由 Matthias Straka 和 Stefan Hauswiesner 提供 ,b)~ c) 
对 用 户 ( 作 为 增强 物体 ， 在 这 里 用 盒子 图 标 表示 ) 必须 进行 相对 于 摄像 机 进行 
跟踪 的 原理 图 。 如 果 显 示 融 总 是 独立 于 用 户 视角 进行 呈现 ， 则 应 用 图 b 的 方 
法 。 如 果 显 示 画 面 模拟 一 个 实际 的 镜像 ， 则 用 户 的 视点 也 必须 被 跟 蹊 ， 此 时 应 
用 图 c 的 方法 


还 可 以 通过 结合 平板 显示 和 半 透 明 反 射 镜 构 建 一 个 光学 透视 式 虚 拟 镜像 ( 见 图 2.31 )， 
在 这 种 情况 下 用 户 的 图 像 通过 光学 反射 实现 ， 因 此 不 需要 摄像 机 ， 但 仍然 需要 对 用 户 进 行 
ERER o 

3. 虚拟 展柜 

虚拟 展柜 [Bimber et al. 2001] 也 是 一 种 虚拟 的 镜子 ， 但 配置 不 同 ， 它 更 像 一 个 定点 光学 
透视 式 头 戴 式 显示 器 的 变种 ， 通 过 半 透 明 的 镜子 将 观察 者 与 观察 到 的 物体 分 开 ( 见 图 2.32 )。 
屏幕 安装 在 反射 镜 的 上 方 或 下 方 ， 从 而 使 得 计算 机 生成 的 图 像 反 射 到 观察 者 处 。 可 以 通过 主 
动 快门 眼镜 实现 立体 效果 ， 快 门 眼镜 让 左右 图 像 按 照 一 个 与 显示 器 同步 的 时 间 交 错 序 听 遂 
过 ， 为 每 只 眼睛 呈现 合适 的 视图 。 





a) 


oo 


a) 微软 研究 院 的 Andy Wilson 展示 HoloFlector, FAP Hee ii ct MAKAI] Kinect 
实现 ， 由 微软 研究 院 提 供 。b) 光学 透视 式 虚 拟 镜像 原 理 图 


图 2.31 





图 2.32 a) 虚拟 展柜 是 一 个 固定 的 光学 透视 式 显示 器 ， 用 于 展览 、 博 物 馆 和 陈列 室 ， 由 
Oliver Bimber 提供 。b) 虚拟 展柜 需要 跟踪 用 户 并 仔细 校准 显示 器 和 反射 镜 光 


学 系统 


虚拟 展柜 需要 校准 显示 器 和 镜子 相对 于 世界 的 坐标 ， 并 跟踪 从 观众 到 世界 (因此 到 镜子 ) 
的 变换 。 
4. 窗 式 显示 器 

窗 式 增强 现实 显示 器 的 组 件 相 互 关系 和 前 两 个 应 用 案例 (被 跟踪 的 用 户 ， 不 间断 显示 ) 
类 似 。 图 2.33 展示 了 三 星 2012 年 的 智能 窗户 原型 ， 这 个 透明 的 显示 器 是 一 个 观察 〈 模 型 ) 
城市 街景 的 窗口 。 三 星 并 没有 在 这 个 原型 上 演示 增强 现实 内 容 ， 只 是 提供 了 一 些 触摸 操作 的 
应 用 程序 (包括 虚拟 百叶 窗 )。 


~ 日 
为 一 个 观察 者 展示 正确 视角 的 城市 街景 ， 需 要 跟踪 该 用 户 的 


视点 。 作 为 一 个 应 用 示例 ，Mark Weiser [1991] 提 到 用 窗户 记录 人 们 在 一 天 中 运动 路 径 的 可 
能 性 以 及 通过 匿名 电子 足迹 来 回放 这 些 路 径 。 





图 2.33 在 CES 2012 上 展示 的 三 星 透 明 千 能 窗户 


一 旦 跟 踊 到 观察 者 的 视点 ， 就 使 用 一 个 人 简单 的 可 见 泻 染 方 法 以 任意 三 维 增强 内 容 实 现 秘 
户 背 后 的 场景 增强 。 用 户 可 以 玩 语 如 巨型 怪兽 在 前 院 践踏 的 增强 现实 视频 游戏 。 

透明 的 显示 兹 不 一 定 会 成 为 穿 过 或 走 过 动 作 的 障碍 。 图 2.34 展示 了 交互 式 双 面筋 屏 
[Rakkolainen et al. 2005]， 它 将 交互 式 图 像 投射 到 一 片 用 户 可 以 看 到 并 穿 过 的 干 筋 上 。 通 过 
使 用 手柄 或 手 部 跟踪 ， 人 们 可 以 从 屏幕 两 侧 与 投射 到 屏 划 上 的 物体 进行 交互 。 增 加 了 头 部 中 
踪 后 ， 显 示 内 容 可 以 根据 观众 视角 进行 泻 染 ， 提 供 了 漂浮 在 空间 的 三 维 物体 的 效果 。 作 为 实 
现 真正 的 体 雾 显示 的 第 一 步 ，Lee 和 同事 们 [2007] 探讨 了 使 用 多 个 雾 屏 以 及 头 部 跟踪 装置 来 
营造 深度 融合 三 维 效果 的 概念 。 





a) b) 


图 2.34 a) Æ SIGGRAPH 2005 LRM Mma. b) ASSES LIBRA. X 
4B TES Bae YS) WU EARE = SR UE AR c) 用 户 可 以 互相 增强 并 穿 
过 屏幕 互动 。d) 屏幕 和 投影 仪 都 在 校准 的 位 置 ， 用 户 的 视点 被 跟 足 (如果 需要 
正确 视角 的 三 维 物体 绘制 ) 


FogScreen 





2.5.4 REALEN 

伴随 着 投影 仪 在 雾 屏 案例 中 的 使 用 ， 我 们 的 讨论 进入 了 投影 显示 领域 。 随 着 投影 仪 性 能 
的 不 断 提 高 和 价格 的 不 断 下 降 ， 它 们 不 仅 应 用 在 传统 场景 (电影 院 、 教 室 和 礼 符 ) 中 ， 还 开始 
应 用 在 个 人 设备 以 及 需要 产生 特殊 效果 和 交互 叙事 的 户外 建筑 投影 等 新 型 公共 事件 中 ， 包 括 
建筑 外 立 面 或 工厂 大 厅 。 后 者 的 应 用 有 时 被 称 为 数字 光 雕 ， 体 现 了 空间 增强 现实 的 概念 。 

本 小 节 将 简要 回顾 视角 相关 以 及 视角 无 关 的 空间 增强 现实 的 概念 ， 还 将 讨论 头 戴 式 投影 
仪 显示 器 、 动 态 着 色 灯 和 随处 投影 仪 等 特殊 案例 。 

1. 空间 增强 现实 

投影 仪 可 以 用 来 创建 空间 增强 现实 [Bimber and Raskar 2005]， 而 不 需要 其 他 任何 显示 装 
置 。 通 过 这 种 方法 ， 投 影 直 接 从 真实 物体 的 表面 反射 出 来 ， 通 过 肉眼 可 见地 改变 外 观 。 投 影 
不 能 改变 物体 的 形状 ， 但 增加 了 表面 细节 、 纹 理 、 阴 影 和 明暗 ， 如 果 投 影 动 画 内 容 ， 甚 至 还 
能 增加 动态 行为 的 效果 ( 见 图 2.35 ) 。 





图 2.35 空间 增强 现实 可 用 来 改变 普通 物体 的 纹理 模型 (由 Michael Marner 提供 ) 


这 种 方法 的 成 功 显 然 取 决 于 表面 材料 ， 最 好 是 具有 中 性 明 嘻 的 颜色 和 漫 反 财 特 性 。 尺 官 
可 以 使 用 次 色 或 带 有 纹理 的 材料 ， 但 呈现 的 对 比 度 将 会 受到 影响 。 对 比 度 同 样 还 将 取决 于 环 
境 的 整体 亮度 。 只 要 真实 世界 是 静态 的 ， 空 间 增强 现实 就 不 需要 进行 任何 跟踪 ( 见 图 2.36 )。 
我 们 只 需要 知道 投影 仪 与 物体 的 相对 位 置 以 及 物体 本 号 的 几何 形状 。 跟 踩 是 不 必要 的 ， 因 为 
增强 绪 果 直接 出 现在 物体 表面 上 ， 并 假 定 为 发 生 漫 反射 。 


2. 视点 相关 的 空间 增强 现实 
借助 主动 快门 眼镜 和 用 户 跟踪 ( 见 图 2.37 )， 可 以 实现 视点 相关 的 空间 增强 现实 [Bimber and 
Raskar 2005]。 这 种 方法 允许 三 维 虚拟 物体 出 现在 空间 中 的 任何 地 方 ， 而 不 仅仅 是 物体 表面 。 
通过 使 用 多 人 台 投 影 仪 可 以 实现 更 好 的 空间 才 盖 [Bimber and Emmerling 2006]。 在 这 种 情况 
下 ， 对 于 每 个 像素 ， 可 以 选择 提供 最 锐利 图 像 的 投影 仪 ， 即 
投影 仪 的 焦 平 面 最 接近 拟 投影 表面 点 的 位 置 ( 见 图 2.38 )。 
最 近 的 相关 工作 解决 了 单个 投影 仪 景深 有 限 的 问题 。 
在 动态 情况 下， 很 难 完全 避免 需要 单个 投影 仪 所 覆盖 的 区 
域 在 投影 轴线 方向 上 距离 过 大 的 情况 。 由 于 景深 有 限 ， 这 
种 情况 会 导致 投影 映射 中 的 区 域 显著 离 焦 。 为 了 解决 这 个 


问题 , Ma 和 同事 们 [2013] 提出 了 “高 阶 编码 孔径 投影 仪 ”, (A—— 
C 





在 图 像 平面 上 和 改进 的 投影 仪 孔径 中 使 用 了 高 速 空间 光 调 
制 器 。Iwai 和 同事 们 [2015] 在 投影 仪 前 放置 电动 变焦 镜头 
并 根据 焦距 变化 以 人 眼 无 法 察觉 的 速度 执行 快速 前 后 扫描 。 236 RR AS 


对 投影 像素 的 点 扩散 函数 进行 一 次 离线 测量 ， 就 足以 计算 i eee 
和 应 用 扫描 范围 内 的 焦点 调整 。 实 就 不 需要 任何 跟踪 
投影 仪 





图 2.37 视点 相关 的 空间 增强 现实 需要 跟 踊 用 户 ,但 可 以 呈现 自由 空间 的 三 维 物体 
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a) 


图 2.38 a) 通过 组 合 多 个 投影 仪 ， 可 以 使 投影 焦点 之 外 的 像素 数 最 少 。b) 需要 知道 投 
影 表 面 的 几何 形状 ， 在 这 里 被 表现 为 标定 到 世界 坐标 的 显示 需 
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3. 头 戴 式 投影 仪 

作为 将 投影 仪 放置 到 环境 中 的 男 外 一 个 选项 ， 我 们 可 以 把 投影 仪 集成 到 头盔 上 。 这 种 装 
置 最 早出 现在 1997 年 [Kijima and Ojika 1997]， 从 那 时 起 投影 仪 技术 已 经 实现 了 相当 的 小 型 
化 。 这 种 方法 经 常 与 回复 反射 屏 结 合 使 用 。 因 为 可 以 将 大 部 分 人 射 光 反射 回 照明 光源 处 而 不 
是 散射 或 映 出 ， 所 以 回复 反射 材料 通 篆 用 于 交通 标志 和 高 能 见 度 的 衣服 上 ( 见 图 2.39a)。 通 
过 将 安装 在 头 部 的 投影 显示 器 (HMPD ) 与 环境 中 的 回复 反射 材料 相 结 合 ， 可 以 产生 个 性 化 
视点 的 视图 ， 甚 至 可 以 为 每 只 眼睛 实现 单独 的 三 维 立体 成 像 [Inami et al. 2000] [Rolland et al. 
2005]。 因 为 几乎 所 有 投射 的 光 都 被 反射 给 观察 者 ， 所 以 其 他 视角 下 的 劳 观 者 看 不 到 这 些 投 
影 ， 而 且 投 影 仪 的 亮度 可 以 优化 以 提供 个 性 化 的 成 像 。 





ATE 
漫 反 射 
反射 回复 反射 
朗 伯 反射 体 ( 例 镜面 反射 体 回复 反射 体 
如 : 素面 木材 ) 


a) 





b) c) 


图 2.39 a) 回复 反射 材料 将 人 射 光 送 回 照明 光源 ， 因 此 它们 与 头 戴 式 投影 仪 相 结合 呈现 
展 好 的 显示 效果 。b) ~ c) 无 头 部 跟踪 和 带 有 头 部 跟踪 的 头 戴 式 投影 仪 显示 希 
空间 关系 示意 图 。 在 后 一 种 情况 下 (图 c)， 当 观察 者 移动 时 ， 虚 拟 物体 可 以 在 
空间 中 保持 稳定 


在 使 用 这 种 方法 时 ， 还 可 以 通过 将 物体 后 方 场景 的 视频 画面 投影 到 物体 上 来 进行 伪装 ， 
只 要 摄像 机 与 观察 方向 一 致 就 可 以 实现 这 种 错觉 [Inami et al. 2000]。 该 头 戴 式 投影 仪 的 亮度 
可 调整 至 非 反 光 表 面 的 投影 不 会 被 察觉 到 ， 包 括 显示 器 佩戴 者 本 身 ， 这 就 使 正确 的 遮挡 成 为 
可 能 。 例 如 ， 用 户 的 手 可 以 正确 遮挡 投影 到 手 后 方 回复 反射 材料 表面 的 虚拟 物体 。 在 空中 悬 
浮 的 三 维 物体 效果 可 以 通过 在 观众 头 部 安装 两 台 投影 仪 利 用 立体 视觉 实现 。 为 了 在 移动 时 保 
证 这 些 物体 看 起 来 在 空间 中 保持 静止 ， 需 要 跟踪 用 户 的 头 部 ( 见 图 2.39c)， 而 且 大 部 分 的 周 
围 环境 都 需要 覆盖 回复 反射 材料 以 方便 用 户 观 察 任 意 视 点 。 一 些 涉 及 空间 稳定 虚拟 物体 的 遮 
挡 仍 然 是 不 正确 的 。 例 如 ， 在 反光 屏幕 前 、 虚 拟 图 像 后 的 无 回复 反射 干扰 物体 会 错误 地 遮挡 
虚拟 物体 ， 破 坏 虚 实 融 合 效果 。 

4. 动态 着 色 灯 

一 个 带 有 目标 跟踪 ( 见 图 2.40 ) 而 非 用 户 跟踪 的 空间 增强 现实 的 变 体 被 命名 为 动态 着 色 


KT [Bandyopadhyay et al. 2001]. 
跟 踩 信息 使 得 将 动态 内 容 投影 在 动态 物体 上 成 为 可 能 。 


如 图 2.41 所 示 ， 这 可 用 于 “ 光 绘 图 ”或 在 卡通 角色 的 头 部 


投影 通 贞 的 面部 表情 [Lincoln et al. 2010] 

5. 随处 投影 仪 

空间 增强 现实 文 持 用 户 移 动 ， 动 态 看 色 灯 文 持 物体 移 
动 ， 我 们 还 可 以 允许 投影 仪 移动 。 通 过 加 闻 一 个 跟 踩 云 台 
( 见 图 2.42 )， 随 处 投影 仪 [Pinhanez 2001] 可 以 实现 这 个 功 
能 

通过 改变 反射 镜 的 位 姿 ， 随 处 投影 仪 可 以 改变 环境 中 的 
每 一 个 表面 ， 这 一 效果 类 似 于 空间 增强 现实 ， 但 工作 空间 









图 2.40 
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更 大 ， 增 蝇 内 容 可 以 随时 间 改 变 位 置 ( 见 图 2.43 )。Beamatron [Wilson e et al. 2012] i 通过 结 全 日 


电动 投影 仪 与 次 度 传 感 器 实现 了 全 身 跟踪 和 身体 上 的 显示 。 





a) 


b) 


A241 动态 着 色 灯 的 两 个 应 用 。a) 在 真实 表面 上 用 光 绘 画 ， 


提供 。b) 带 有 面部 投影 的 动画 角色 (由 北 卡 罗 来 纳 大 : 


Welch 提供 ) 
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图 2.42 ”一 个 易 操 纵 的 、 可 跟踪 的 投影 仪 可 以 在 任意 位 置 投 景 





由 Michael Marner 
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图 2.43 ”随处 投影 仪 基于 可 跟踪 、 可 操纵 的 投影 ， 可 以 在 任何 表面 显示 内 容 。 例 如 ， 在 
品 货 架 上 显示 提示 信息 (由 Claudio Pinhanez Htt, MALIA IBM 2001 ) 


2.6 小结 


本 章 探 讨 了 增强 现实 显示 。 显 示 必 须 能 够 结合 虚拟 和 现实 ， 包 括 不 同 的 模 态 。 大 多 数 增 
强 现实 的 研究 集中 在 视觉 领域 , 但 也 已 经 有 人 研究 聚焦 于 音频 增强 现实 。 其 他 的 人 类 感官 ， 尤 
其 是 触觉 ， 也 在 现实 增强 的 体验 中 扮演 着 越 来 越 重 要 的 角色 。 目 前 ， 最 先进 的 增强 现实 显示 
聚焦 于 视觉 增强 ， 并 由 空间 音频 文 持 。 

作为 我 们 关于 这 个 主题 讨论 的 一 部 分 ， 我 们 回顾 了 视觉 感知 的 基本 知识 ， 分析 了 视觉 增 
强 现实 显示 的 主要 要 求 和 特性 。 视 觉 增强 现实 可 以 通过 光学 透视 或 视频 透视 的 方法 来 实现 ， 
也 可 以 通过 空间 投影 的 方式 实现 。 许 多 沉浸 感 参数 在 提供 有 用 的 增强 现实 体验 中 非常 重要 ， 


包括 单 / 双 目 、 视 场 、 亮 度 和 对 比 度 、 遮 挡 、 延 迟 、 聚 焦 机 制 、 分 辩 率 以 及 显示 技术 的 斥 十 
A EF TEI 





FC {TE FS oh BS AN aie FET A AY ie BE VASS—§ AGB, AR (包括 手持 ) 或 在 
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能 的 用 例 。 例 如 手持 式 显 示 需 具有 善 适 性 和 经 济 性 ， 可 以 将 增强 现实 技术 的 思想 和 潜力 带 给 
每 个 人 ， 借 助 先进 的 技术 和 人 因 工 程 学 的 创新 ， 头 戴 式 显示 器 可 能 代表 了 下 一 代 增 强 现实 ， 
但 目前 仍 需要 广泛 的 社会 接受 度 。 受 益 于 当代 微型 显示 器 像素 的 分 辩 率 越 来 越 高 ， 一 个 很 有 
前 途 的 新 方法 是 光 场 显示 。 

我 们 介绍 了 一 个 用 来 描述 不 同 显示 技术 所 隐 含 的 坐标 转换 和 关系 的 空间 模型 。 我 们 为 每 
种 新 型 显示 带 提 供 的 示意 图 总 结 了 增强 现实 体验 组 件 之 间 的 跟踪 或 固定 坐标 关系 ， 即 用 户 、 
显示 需 、 摄 像 机 和 世界 ， 以 及 空间 增强 现实 中 的 投影 仪 和 物体 。 这 预示 着 跟踪 技术 至 关 重 
要 ， 我 们 将 在 第 3 章 中 讨论 跟 踩 技术 。 


| 第 3 章 
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味 着 连续 测量 该 实体 的 位 置 和 方向 。 可 以 跟踪 不 同 的 实体 : 例如 用 户 的 头 部 、 眼 睛 、 四 肢 ， 
或 者 是 摄像 头 和 显示 器 等 增强 现实 设备 ， 又 或 者 是 任何 占据 增强 现实 场景 的 对 象 。 本 章 讨论 
各 种 跟 踊 技术 及 其 特点 ， 首 先 人 研究 固定 系统 ， 其 次 介绍 移动 传 感 占 ， 并 详细 讨论 视觉 跟踪 ， 
最 后 对 多 传 感 硕 跟踪 数据 融合 做 简要 介绍 。 


3.1 ” 跟踪、 标定 和 注册 


在 增强 现实 语 境 下 ， 与 对 和 象 的 测量 和 校准 相关 的 有 跟 踊 、 标 定 和 注册 三 个 重要 的 术语 。 
这 些 术 语 在 实际 应 用 中 有 重 倒 ， 所 以 我 们 将 会 在 本 书 中 阐明 它们 的 含义 ( 见 图 3.1 )。 





图 3.1 一 个 增强 现实 系统 必须 处 理 三 个 重要 且 部 分 重合 的 概念 : 跟踪 、 标 定 和 注册 


自 先 简洁 地 介绍 这 些 术 语 ， 更 重要 的 是 识别 它们 的 不 同 之 处 。 注 册 指 的 是 空间 特性 上 的 
对 准 。“ 在 增强 现实 中 注册 ”的 对 象 会 在 某 一 坐标 系 下 互相 对 齐 。 增 强 现实 系统 的 典型 目标 
是 用 户 感 知 的 物理 场景 对 象 和 虚拟 信息 的 精确 注册 。 标 定 是 测量 的 离线 调整 [Wloka 1995], 
根据 标准 的 传感器 或 仪器 的 读数 来 检查 和 调整 传感器 的 精度 。 标 定 负责 静态 注册 ， 对 于 许多 
跟踪 系统 的 非 空间 参数 是 十 分 必要 的 ， 而 跟踪 负责 动态 注册 。 

更 具体 地 说 ， 跟 踪 是 一 种 用 来 描述 增强 现实 系统 动态 传 感 和 测量 的 术语 。 为 了 显示 在 三 
维 空间 中 注册 到 真实 物体 的 虚拟 对 象 ， 我 们 必须 至 少 了 解 相 对 位 姿 ， 即 增强 现实 显示 器 相对 
于 真实 物体 的 位 置 和 方向 。 因 为 增强 现实 需要 实时 操作 ， 所 以 姿态 测量 必须 持续 更 新 (持续 


跟踪 )。 在 增强 现实 领域 , “跟踪 ” 通 稼 意味 着 “三 维 跟踪 ”， 即 真实 物体 的 三 维 位 置 或 者 
六 维 姿态 (位 置 和 方 回 )， 这 对 应 着 传统 计算 机 视觉 中 共有 的 在 图 像 空 间 中 追踪 二 维 物体 的 

标定 是 比较 两 个 不 同 设备 测量 值 的 过 程 ， 其 中 一 个 设备 做 参考 ， 为 一 个 设备 被 标定 。 参 
考 设备 可 以 用 一 个 已 知 的 参考 值 代替 ， 对 于 几何 测量 ， 可 以 用 一 个 已 知 的 坐标 系 代 替 。 其 目 
的 在 于 测定 参数 ， 以 便 在 使 用 标定 设备 时 能 够 在 已 知 尺 度 下 提供 测量 值 。 对 于 增强 现实 ， 我 
们 需要 标定 增强 现实 系统 的 各 个 组 件 ， 特 别 是 用 于 跟 踊 的 设备 。 

与 跟踪 意味 着 持续 地 进行 测量 不 同 ， 标 定 通常 只 在 离散 的 时 刻 进行 。 取 决 于 不 同 测量 系 
统 ， 在 设备 的 生命 周期 内 可 能 只 做 一 次 标定 (典型 的 是 在 制造 过 程 中 或 者 制造 结束 后 )， 也 
可 能 在 每 次 操作 之 前 或 与 跟踪 同时 进行 。 最 后 一 种 情况 不 限于 离散 时 间 ， 为 了 避免 干扰 正常 
的 跟踪 ， 要 求 标定 过 程 能 够 无 监督 执行 ， 因 此 通常 被 称 为 自动 标定 。 我 们 将 在 第 5 章 更 深入 
地 论述 对 增强 现实 的 标定 程序 。 在 本 章 后 面 的 部 分 ， 我 们 均 假 定 设备 已 经 被 正确 地 标定 。 

增强 现实 中 的 注册 指 的 是 虚拟 对 象 和 真实 对 象 之 间 坐 标 系 的 对 准 [Holloway 1997]。 更 
确切 地 说 ， 就 是 透视 式 显 示 器 所 显示 的 计算 机 图 形 元 素 与 真实 世界 的 对 象 对 准 。 这 需要 跟踪 
用 户 的 头 部 或 者 提供 背景 视频 的 摄像 机 (或 两 者 同时 )。 当 用 户 或 摄像 机 不 移动 时 进行 静态 
注册 ， 并 需要 标定 跟踪 系统 以 便 在 虚拟 对 象 和 真实 对 象 之 间 建 立 一 个 公共 坐标 系 。 当 用 户 或 
摄像 机 移动 时 进行 动态 注册 ， 因 此 需要 进行 跟踪 。 


3.2 ERA 


在 增强 现实 中 ， 通 向 依靠 一 个 标准 的 计算 机 图 形 流 水 线 来 生成 覆盖 在 真实 世界 上 的 附加 
信息 [Robinett et al. 1995]。 该 流水 线 与 捕获 、 演 染 和 组 合 帧 的 增强 现实 显示 器 种 类 无 关 ( 见 
第 2 章 )， 包 插 模 型 变换 、 视 图 变换 和 投影 变换 ( 见 图 3.2 )。 





图 3.2 ”增强 现实 需要 考虑 多 种 变换 。 模 型 变换 摘 述 了 静态 环境 下 移动 对 象 的 姿态 。 视 
图 变换 描述 了 茶 一 环境 下 摄像 机 、 跟 踪 传 感 器 或 显示 器 的 姿态 。 投 影 变换 描述 
了 从 人 眼 坐 标 到 屏幕 坐标 的 映射 。 模 型 变换 和 视图 变换 都 可 以 被 跟踪 ， 从 而 实 
现 注 册 


注册 意味 着 这 些 变换 的 累积 效应 必须 在 真实 对 象 和 虚拟 对 象 之 间 匹 配 。 如 何 处 理 这 种 个 
性 化 的 变换 取决 于 增强 现实 系统 的 配置 和 跟踪 技术 。 某 些 参 数 可 以 离线 标定 ， 而 其 他 的 参数 
会 逐 帧 变化 并 需要 跟 踩 。 


3.2.1 模型 变换 


模型 变换 描述 了 三 维 本 地 对 象 坐标 和 三 维 全 局 世界 坐标 之 间 的 关系 。 模 型 变换 确定 了 真 
实 世 界 中 对 象 被 放置 的 位 置 。 虚 拟 对 象 由 应 用 程序 控制 ， 除 了 非常 罕见 的 情况 不 需要 跟踪 。 
例如 ， 当 只 有 一 个 可 用 于 跟踪 的 增强 视频 流 存 在 时 ， 需 要 进行 目标 跟踪 。 

真实 对 象 可 以 成 为 静止 真实 场景 的 一 部 分 ， 或 者 被 允许 移动 。 静 止 真 实 场景 不 需要 模型 
变换 。 对 于 场景 中 每 一 个 移动 芮 实 对 象 ， 如 果 我 们 想 要 注册 虚拟 信息 就 必须 跟 踩 它 的 模型 
变换 。 然 而 许多 增强 现实 场景 只 处 理 独立 于 任何 全 局 坐标 系 的 移动 对 象 ， 特 别 是 当 使 用 标记 
时 。 在 这 种 情况 下 ， 我 们 不 需要 一 个 单独 的 世界 坐标 系 ， 可 以 通过 追踪 真实 对 象 来 使 用 视图 
变换 。 


3.2.2 ”视图 变换 


视图 变换 描述 了 三 维 全 局 世界 坐标 和 三 维 摄像 机 坐标 之 间 的 关系 。 大 多 数 增强 现实 场景 
允许 观察 者 在 真实 世界 中 移动 ， 因 此 跟 踊 视图 变换 是 最 重要 的 目标 。 增 强 现 实 的 典型 特点 是 
需要 对 摄像 机 和 用 户 的 显示 融 进 行 独立 的 视图 变换 。 如 采 在 视频 透视 设备 上 只 有 摄像 机 需要 
馈 单 独 跟踪 ， 则 不 需要 进行 显示 标定 。 然 而 ， 其 他 系统 可 能 需要 标定 摄像 机 和 显示 大 ， 特 别 
是 使 用 立体 显示 需 的 系统 。 


3.2.3 投影 变换 


投影 变换 描述 了 三 维 摄像 机 坐标 和 二 维 设备 坐标 之 间 的 关系 。 视 锥 体 的 内 容 被 映射 到 
一 个 单位 立方 体 上 ， 随 后 通过 除去 Z 轴 分 量 并 应 用 视 口 转换 (以 获得 有 合适 高 宽 比 的 屏幕 
单元 ) 将 其 投影 到 屏幕 上 。 投 影 变换 通常 通过 离散 标定 ， 需 要 针对 每 一 人 台 摄 像 机 和 显示 天 
进行 。 


3.2.4 Bi 


先前 描述 的 变换 定义 了 对 象 、 世 界 和 人 眼 坐 标 系 。 虚 拟 信 息 可 以 相对 于 整个 世界 、 一 个 
(有 可 能 移动 的 ) 对 象 或 者 是 一 个 用 户 的 视野 (增强 现实 屏幕 ) 固定 。 如 果 把 用 户 的 身体 作为 
一 个 特殊 对 象 案例 ， 我 们 可 以 谈 及 世界 绑 定 、 对 象 绑 定 (或 在 特殊 情况 下 ， 身 体 绑 定 ) 以 及 
屏幕 绑 定 信息 [Feiner et al. 1993b] [Billinghurst et al. 1998a]. 

我 们 用 一 个 如 图 3.3 所 示 的 虚拟 场景 来 说 明 这 些 概念 。 假 设 图 中 的 这 个 人 正在 通过 增强 
现实 眼镜 体验 导航 系统 。 增 强 现 实 界面 一 下 在 告知 他 目的 地 ， 示 出 选 定 路 线 下 的 进度 并 帮助 
他 做 出 正确 的 转向 判断 。 眼 镜 让 用 户 看 到 其 前 方 世 界 的 注释 信息 ， 比 如 在 出 现 贫 路 时 有 【( 虚 
W) 蓝 色 路 标 指示 出 正确 的 线路 。 这 个 路 标 对 于 任何 没有 通过 用 户 的 增强 现实 眼镜 观看 的 劳 
观 者 来 说 是 看 不 见 的 ， 这 就 构成 了 一 个 世界 绑 定 的 增强 现实 元 素 ， 因 为 它 表 现 得 就 像 一 个 物 
理 世 界 的 对 象 。 用 户 可 以 走 到 (或 绕 过 ) 这 个 路 标 ， 它 会 在 场景 下 保持 固定 。 

增强 现实 系统 同样 可 以 通过 平视 显示 器 (HUD) 实现 ， 该 类 系统 以 窗口 的 形式 呈现 在 用 
户 增强 现实 视图 的 左上 角 ， 总 是 作为 一 个 屏幕 绑 定 的 增强 现实 元 素 停 留 在 屏幕 上 。 例 如 ， 它 
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可 以 提供 羔 单 选项 ， 用 户 可 以 在 任何 地 点 进行 实时 选择 CHE CE Ll, AE 
指令 、 可 穿戴 式 触 控 板 或 者 是 眼睛 跟踪 )。 用 户 通过 表单 可 以 进行 请 如 改变 首选 路 线 等 操作 。 





图 3.3 移动 增强 现实 的 参考 帧 : 平视 显示 器 (HUD) 是 屏幕 绑 定 元 素 的 实例 ， 总 是 停 
留 在 用 户 的 视野 中 。 虚 拟 的 蓝 色 路 标 等 “ 住 进 ” 三 维 世 界 的 注释 是 世界 绑 定 元 
素 。 随 用 户 移动 但 相对 于 身体 保持 一 个 特定 位 置 的 注释 是 身体 绑 定 元 素 (例如 与 
用 户 膝 关节 等 高 的 三 个 水 平 窗 口 ， 可 以 显示 地 图 、 目 的 地 的 图 像 或 者 岔路 选择 ) 


最 后 ， 这 个 增强 现实 系统 的 特色 是 身体 绑 定 的 增强 现实 元 素 : 与 该 用 户 膝 关节 等 高 的 三 
个 窗口 可 以 显示 如 下 信息 ， 如 中 间 的 窗口 显示 在 岔路 点 正确 的 选项 ， 在 左边 的 窗口 覆盖 了 带 
有 当前 出 行进 度 的 地 图 视图 ， 在 右边 的 窗口 显示 了 最 终 目的 地 的 画面 。 当 用 户 行走 时 ， 这 三 
个 窗口 随 用 户 移动 ; 换 句 话说 ,它们 总 是 停留 在 相对 于 用 户 身 体 相同 的 距离 和 方位 上 。 用 户 
可 以 集中 精力 注视 这 三 个 窗口 中 之 一 一 一 他 的 头 部 运动 是 独立 于 身体 绑 定 信息 的 。 通 常 为 了 
实现 这 种 身体 绑 定 系统 ， 除 了 需要 跟踪 头 部 姿态 以 外 ， 还 要 跟踪 身体 的 方向 。 


3.3 ”跟踪 技术 的 特点 

在 3.2 下 中 ， 我 们 确立 了 跟踪 什么 。 本 节 我 们 将 研究 如 何 跟踪 。 我 们 从 论述 跟踪 技术 的 
特点 开始 。 用 于 跟踪 的 测量 系统 使 用 各 种 物理 现象 和 布置 选项 ， 这 些 决 定 了 测量 哪些 坐标 
系 ， 并 影响 了 跟踪 的 时 空 特 性 。 
3.3.1 物理 现象 

测量 可 以 利用 电磁 辐射 ( 包 插 可见光 、 红 外 线 、 紫 外 线 、 激 光 、 无 线 电 信号 和 磁 通 量 )、 
声音 、 物 理 连 接 、 重 力 和 惯性 [Meyer et al. 1992] [Rolland et al. 2001] [Welch and Foxlin 
2002]。 对 应 每 种 物理 现象 都 有 专门 的 传感器 。 
3.3.2 测量 原理 

我 们 可 以 测量 信号 强度 、 信 号 方向 和 飞行 时 间 (包括 绝对 时 间 和 周期 信号 的 相位 )。 需 





要 注意 的 是 ， 飞 行 时 间 测 量 需要 次 级 通信 信道 来 确保 发 送 条 和 接收 条 之 间 时 钟 同 步 。 此 外 ， 
还 可 以 测量 机 电 性 能 。 


3.3.3 测量 的 几何 属性 


我 们 可 以 测量 距离 或 者 角度 ， 这 一 选项 影响 我 们 应 用 于 测量 的 数学 方法 [Liu et al. 
2007]。 三 边 测 量 这 一 几何 方法 通过 至 少 三 个 测量 距离 来 确定 点 的 位 置 ， 而 三 角 测量 法 通过 
两 个 或 两 个 以 上 的 测量 角度 以 及 一 个 假定 已 知 的 距离 来 确定 点 的 位 置 ( 见 图 3.4 )。 已 知 一 个 
刚体 的 三 个 或 三 个 以 上 点 的 位 置 ， 就 可 以 还 原 该 对 象 的 位 置 和 方向 。 





a) b) 


图 3.4 a) 应 用 三 边 测量 法 ， 已 知 点 M 到 扣 Pi, Pa, P, WERN di, da, dy, WEA 
球体 的 交叉 点 可 知 点 M 的 位 置 ; b) 应 用 三 角 测 量 法 ， 通 过 在 P, 点 的 角 a,, 在 
P; 点 的 角 ua AA Pi, Pa 点 间距 di; 可 以 确定 点 M 的 位 置 


3.3.4 FRAME 


一 个 通用 的 做 法 是 将 多 个 传感器 同时 放 人 一 个 已 知 的 刚性 几何 结构 中 ， 比 如 一 个 立体 摄 
像 机 平台 。 在 仅 使 用 少量 传 感 希 时 这 样 一 种 布置 可 以 很 稀 玻 ， 或 者 是 一 个 密集 的 二 维 阵列 的 
形式 ， 例 如 一 个 有 几 特 万 像素 的 数码 相机 传 感 希 。 有 时 为 了 测量 如 同 三 个 基本 方 和 上 的 加 速 
度 等 向 量 值 ， 正 交 布 置 三 个 传 感 顺 是 非常 重要 的 。 如 果 使 用 了 多 传 感 贷 配置 ， 那 么 我 们 或 者 
需要 传感器 同步 来 确保 同时 获得 测量 值 ， 或 者 需要 处 理 在 些许 不 同时 间 内 获得 的 来 自 两 个 传 
感 器 的 测量 值 。 传 感 嚣 融合 指 的 是 组 合 多 传 感 希 输入 以 获得 更 完善 或 更 精确 测量 的 过 程 ( 见 
3.7 Ja 


3.3.5 ”信号 产 


信和 号 源 提 供 可 以 被 传 感 希 采集 的 信号 。 与 传感器 相同 ， 信 和 号 源 必须 被 放置 在 一 个 已 知 的 
几何 结构 中 。 信 和 号 源 可 以 是 被 动 或 主动 的 。 

被 动 信号 源 依靠 环境 中 的 自然 信号 ， 比 如 自然 光 或 地 磁场 等 。 当 显然 没有 外 部 源 时 ， 比 
如 基于 惯性 传 感 ， 这 种 测量 方法 被 称 作 无 源 传 感 [Bachmann and McGhee 2003]。 

主动 信号 源 依 靠 某 种 电子 形式 产生 物理 信号 。 大 多 数 类 型 的 主动 信号 源 (如 声波 、 光 学 


和 某 些 射频 源 ) 需要 可 视 ， 以 便 信 号 不 受 干 扰 地 传播 到 传 感 虎 。 主 动 信号 源 可 以 进一步 分 为 
直接 主动 信号 源 和 间接 主动 信号 源 ， 其 中 直接 主动 信号 源 安 交 在 被 跟踪 对 象 上 ， 而 间接 主动 
信号 源 的 对 象 只 是 反射 了 来 目 环境 中 其 他 位 置信 号 源 的 信号 。 在 间接 主动 信号 源 的 情况 下 ， 
我 们 必须 了 解 被 跟踪 对 象 上 的 反射 点 的 几何 性 质 ， 而 不 是 信号 源 目 己 的 几何 性 质 。 


3.3.6 BAER 


在 测量 系统 中 ， 自 由 度 (DOF) 是 测量 的 一 个 独立 维度 。 在 三 维 空间 中 注册 真实 和 虚拟 
对 象 通常 需要 确定 对 象 的 6 ABE (6DOF) 信息 ,包括 3 目 由 度 位置 和 3 目 由 度 姿 态 。 对 
于 大 多 数 增强 现实 应 用 ， 理 想 情 况 下 跟踪 系统 会 提供 全 部 6 目 由 度 。 然 而 ， 茶 些 传 感 噩 或 技 
术 只 提供 3 自由 度 方向 (例如 陀螺 仪 ), 或 3 目 由 度 位 置 (例如 单 LED FREE), 或 者 仅 有 一 到 
两 个 特定 的 自由 度 〈 例 如 汽车 里 程 表 )。 由 于 具有 诸如 高 刷新 率 或 小 太 二 等 特定 优势 ， 这 些 
技术 会 一 直 对 增强 现实 有 吸引 力 。 它 们 可 以 与 其 他 类 型 的 传 感 顺 结合 来 满足 增强 现实 应 用 可 
能 具有 的 所 有 输入 要 求 。 


3.3.7 ”测量 坐标 


跟踪 测量 相对 于 给 定 坐 标 系 的 物理 量 。 坐 标 系 的 选择 取决 于 跟踪 技术 ， 但 对 于 增强 现实 
应 用 中 数据 使 用 的 方法 有 重要 的 影响。 

1. 全 局 坐标 和 本 地 坐标 

我 们 需要 区 分 全 局 坐标 与 本 地 坐标 。 本 地 坐标 指 的 是 由 用 户 建立 的 小 规模 坐标 系 ， 可 能 
采用 了 特别 的 方式 。 例 如 ， 我 们 可 以 测量 相对 于 所 处 房间 某 一 角落 的 距离 。 全 局 坐标 指 的 是 
世界 范围 的 测量 (或 非常 宽广 的 区 域 ， 例 如 整 座 城市 的 规模 )， 它 仍然 是 相对 的 ， 只 不 过 是 
相对 于 整个 行星 。 例 如 ， 用 指南 针 测 量 相对 于 地 磁场 的 朝 回 。 

全 局 坐标 系 允 许 更 宽广 的 运行 范围 ， 并 因此 有 更 多 的 运动 自由 度 。 此 外 ， 为 了 实现 增强 
现实 ， 来自 GIS 数据 库 的 数据 等 外 部 地 理 注 册 信 息 可 以 直接 应 用 在 虚拟 对 象 上 。 相 反 ， 基 
于 较 小 规模 专用 短 距 传 感 右 基础 结构 的 本 地 坐标 系 可 能 提供 更 准确 和 精密 的 测量 。 用 户 可 以 
通过 在 周围 环境 放置 一 个 相对 于 可 移动 工件 (例如 一 个 视觉 跟踪 标记 ) 的 虚拟 对 象 来 建立 本 
地 坐标 系 ， 从 而 不 需要 来 自 地 理 注册 数据 库 的 输入 。 

2. 绝对 测量 和 相对 测量 

我 们 也 要 区 分 绝对 测量 和 相对 测量 。 绝 对 测量 (例如 移动 对 象 位 姿 测量 ) 指 的 是 已 提前 
设 定 参考 坐标 系 ， 而 相对 测量 指 的 是 动态 建立 参考 坐标 系 (例如 相对 于 前 一 个 位 姿 )。 相 对 
测量 的 例子 包括 增 量 传感器， 对 于 诸如 电脑 鼠标 之 类 的 增 量 传 感 锅 而 言 ， 第 见 的 形式 是 输出 
最 后 一 次 测量 的 变化 量 。 尽 管 相对 测量 具有 独立 的 移动 传 感 郑 提供 的 便携 性 ， 但 是 由 于 和 布 望 
真实 和 虚拟 对 象 的 注册 是 稳定 且 不 连续 变化 的 ， 因 此 相对 测量 通常 更 难 应 用 在 增强 现实 中 。 
与 绝对 测量 相 比 ， 这 种 对 于 转换 的 需要 对 精度 有 负面 影响 。 


3.3.8 空间 传 感 钴 布置 

目前 有 两 种 跟踪 系统 空间 布置 的 基本 类 型 : 由 外 回 内 与 由 内 向 外 ( 见 图 3.5 ) [Allen et 
al. 2001]. 

H Sh A eas AY ae Fd a OR ERE PL Ae, PS wh A 
器 。 传 感 器 的 布置 需要 保证 精确 位 置 三 角 测 量 的 合适 角度 。 如 果 是 通过 检测 跟踪 目标 上 三 个 
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或 三 个 以 上 点 的 位 置 来 进行 方 回 测量 的 ， 那 么 环境 中 单个 传感器 对 这 些 点 测量 的 微小 角度 差 
异 将 导致 方向 跟踪 不 完全 具备 条 件 。 由 外 向 内 方法 的 优点 是 用 户 通常 不 会 受 重量 或 功 耗 等 传 
感 需 性 能 的 影响 ， 并 且 可 以 使 用 多 传 感 希 。 然 而 ， 它 需要 改变 环境 ， 并 将 用 户 限制 在 有 限 的 
工作 空间 中 。 这 些 限 制 对 于 真正 的 移动 增强 现实 来 说 是 棘手 的 问题 。 





a) b) 


图 3.5 由 外 回 内 与 由 内 向 外 跟踪 的 区 别 与 放置 源 与 传感器 的 位 置 相 关 。 本 例 中 , 我们 
考虑 LED 信和 标 作 为 源 ， 相 机 作为 传感器 。a) 由 外 向 内 跟踪 使 用 固定 安装 在 环境 
中 的 源 。b) 由 内 问 外 跟踪 使 用 安装 在 手机 或 身上 的 设备 传感器 


与 之 相对 ， 由 内 回 外 的 跟踪 指 的 是 传 感 硕 随 被 跟踪 对 象 一 起 移动 并 观察 环境 中 的 固定 参 
考 物 。 这 些 参 考 物 之 间 通 常会 被 隔 开 足够 远 的 距离 以 保证 精确 的 方向 跟踪 ， 但 是 位 置 测量 不 
完全 具备 条 件 ， 特 别 是 在 比较 广阔 的 区 域内 进行 跟踪 时 。 固 定 参考 物 不 必 是 主动 信号 源 ， 其 
至 可 以 由 用 户 放 和 置 。 实 际 上 ， 基 于 计算 机 视觉 的 跟踪 经 常用 于 在 一 个 完全 无 准备 的 环境 中 信 
计 运 动 摄像 机 的 位 姿 ( 见 第 4 草 )。 运 动 传 感 副 可 以 很 好 地 支持 移动 增强 现实 ， 并 使 用 户 更 加 
独立 于 任何 固定 的 基础 设施 。 但 是 ， 传 感 需 的 重量 、 大 小 以 及 数量 限制 了 移动 装置 的 能 力 。 


3.3.9 工作 区 范围 


在 使 用 局 部 测量 的 跟踪 技术 当中 ， 传 感 硕 量程 (或 工作 范围 ) 是 重要 的 特征 。 一 些 传 感 
货 能 够 覆盖 的 最 大 范围 只 有 1 OK (例如 短 距 磁 跟 踪 器 )， 而 其 余 的 可 以 在 更 广 的 范围 内 起 作 
用 ， 可 能 可 以 覆盖 一 整个 走廊 (如 3rdTech HiBall) 或 者 一 个 飞机 库 ， 在 使 用 GPS 的 情况 下 
其 至 可 以 覆盖 整个 地 球 表面 。 尽 管 移动 应 用 显然 需要 更 大 的 工作 范围 ， 但 通常 需要 在 工作 范 
围 和 跟踪 精度 之 间 进 行 折 中 。 

无 论 室 内 还 是 室外 ， 理 想 情况 下 用 户 都 希望 能 够 在 一 个 任意 尺寸 的 环境 中 漫游 ， 并 且 能 
摆脱 电子 设备 的 连 线 等 跟踪 部 件 的 腾 绊 。 然 而 典型 的 跟踪 系统 都 依靠 某 种 基础 设施 ， 这 可 能 
是 由 有 源 右 件 组 成 ， 例 如 由 外 癌 内 的 跟 踊 系统， 或 者 是 无 源 目标 ， 例 如 安装 在 环境 中 的 或 是 
由 用 户 携带 的 标志 物 。 如 果 不 存 在 实体 基础 设施 ， 至 少 还 需要 获得 相关 的 真实 对 象 或 用 户 的 
数字 模型 以 便 跟踪 系统 能 够 探测 到 它们 。 与 同时 定位 和 地 图 构造 类 似 ， 环 境 模 型 能 够 同时 被 
构造 和 跟踪 ，( 见 3.6.1 节 以 及 第 4 章 )。 


3.3.10 测量 误差 
真实 世界 的 传 感 需 存在 系统 误差 和 随机 误差 。 系 统 测量 误差 的 实例 包括 静态 偶 移 、 比 例 


因子 误差 、 由 于 环境 中 可 预测 或 可 测量 的 影响 产生 的 偏离 理想 测量 值 的 系统 误差 (例如 磁 跟 
蹊 句 工作 区 域 中 的 铁 磁 材料 )， 这 些 能 够 通过 标定 来 消除 。 随 机 测量 误差 也 被 称 作 噪声 或 扰 
BH, 来源 于 传 感 系统 中 不 可 控 的 影响 ,通常 呈 高 斯 分 布 。 准 确 度 、 精 密度 和 分 辨 率 是 所 有 跟 
踩 系 统 中 重要 的 误差 特性 。 

测量 的 准确 度 指 的 是 待 测量 的 测量 值 与 真 值 的 接近 程度 。 它 来 源 于 系统 误差 .因此 可 以 
通过 更 好 的 标定 技术 进行 改善 ， 虽 然 这 往往 需要 付出 很 高 的 成 本 和 努力 。 在 一 些 特殊 情况 或 
应 用 案例 下 ， 这 样 的 代价 并 不 总 是 合理 的 。 

测量 的 精密 度 指 的 是 对 同一 竺 测量 的 多 个 测量 值 的 重复 度 。 精 密度 与 传感器 类 型 和 自由 
度 有 关 ， 受 随机 测量 误差 的 影响 。 可 以 通过 滤波 抑制 随机 误差 ， 但 通常 会 增加 计算 成 本 且 产 
生 更 高 的 延迟 。 

传 感 硕 的 分 辨 率 是 指 可 以 辨别 两 个 测量 值 的 最 小 差异 。 例 如 ， 位 置 跟踪 器 0.01mm 的 空 
间 分 辩 率 指 的 是 探头 移动 的 距离 会 被 跟踪 器 以 0.01mm 的 增 量 探测 。( 当然 ， 在 这 种 分 辨 极 
限 下 为 了 能 够 看 到 数据 实时 更 新 ， 探 头 必须 移动 得 极其 缓慢 .) 因为 假设 没有 静态 或 动态 误 
差 ， 所 以 分 辨 率 只 是 一 个 理论 性 质 ， 在 实际 应 用 中 往往 不 会 获得 。 实 际 上 ， 噪 声 往往 会 超出 
给 定 的 分 辩 率 极限 ， 特 别 是 对 于 一 些 廉 价 的 传感器 而 言 。 


3.3.11 ”时间 特性 


跟 踊 系 统 有 两 个 重要 的 时 间 特 性 : 更 新 率 和 延迟 。 更 新 率 (或 者 叫 时 间 分 辨 率 ) 指 的 是 
给 定 的 时 间 间 隅 内 执行 测量 的 次 数 。 延 迟 指 的 是 从 运动 等 物理 事件 的 发 生 到 增强 现实 应 用 获 
取 相 应 的 数据 记录 所 花费 的 时 间 。 这 两 个 时 间 特 性 当中 ， 因 为 延迟 更 直接 地 确定 系统 级 上 引 
入 了 多 少 动态 误差 ， 因 此 对 增强 现实 这 样 的 实时 应 用 更 加 关键 。 人 类 用 户 期 望 系统 能 够 即 
时 地 做 出 反应 且 没有 明显 的 延迟 [Wloka 1995]。 延 迟 将 会 导致 在 对 象 或 摄像 机 运动 时 本 应 一 
直 注 册 在 物理 对 象 上 的 虚拟 对 象 的 运动 滞后 ， 产 生 令 人 不 快 的 干扰 效果 。60Hz 的 显示 需要 
更 新 在 17ms 的 时 间 内 完成 。 如 果 目 标 画 面 不 能 被 错过 ， 那 么 在 延迟 时 间 上 就 要 有 严格 的 上 
限 。 需 要 注意 的 是 ， 端 对 端的 延迟 不 仅 包括 传感器 的 物理 测量 及 到 主机 的 传输 ， 还 包括 所 有 
将 增强 现实 显示 输出 到 终端 用 户 的 处 理 。 


3.4 ”固定 跟踪 系统 


在 前 一 节 中 ， 我们 看 到 在 设计 跟踪 系统 时 有 很 多 选择 。 这 些 选择 确定 了 对 给 定 用 例 的 特 
定 跟 躁 系统 的 作用 ， 例 如 经 常 需要 进行 性 能 和 成 本 之 间 的 权衡 ， 男 一 个 重要 的 权衡 涉及 跟踪 
系统 的 尺寸 、 重 量 和 功 耗 。 建 立 一 个 不 需要 携带 或 移动 的 系统 更 加 容易 。 上 毫 不 奇怪 ， 出 现在 
20 世纪 90 年 代 的 固定 跟踪 系统 首先 大 量 地 应 用 于 虚拟 现实 应 用 [Meyer et al. 1992][Rolland 
et al. 2001]。 由 于 只 能 固定 使 用 ， 目 前 机 械 、 电 磁 和 超声 波 跟踪 系统 在 增强 现实 中 的 应 用 不 
是 很 普遍 ， 然 而 这 些 系 统 可 以 用 于 理解 跟踪 的 基本 原理 ， 


3.4.1 ”机械 跟踪 


机 械 跟 踊 可 能 是 最 古老 的 技术 ， 建 立 在 十 分 易于 理解 的 机 械 工程 方法 上 。 机 械 跟踪 通常 
跟踪 2 ~ 4 个 机 械 关 节 臂 的 末端 ( 见 图 3.6 )， 这 需要 已 知 每 根 臂 的 长 度 并 测量 每 个 关节 的 角 
度 。 关 可 以 有 一 个 、 两 个 或 三 个 方向 自由 度 ， 可 以 通过 旋转 编码 器 或 电位 器 测量 。 基 于 已 
知 的 臂 长 和 测量 的 关节 角度， 可 以 通过 建立 运动 链 的 数学 公式 来 确定 末端 的 位 置 和 方向 。 
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图 3.6 ”基于 机 械 臂 和 关节 布置 的 机 械 臂 的 例子 (三 个 关节 和 三 个 臂 )。 可 以 感知 关节 上 
的 角度 ， 这 一 结构 也 可 以 提供 力 反 馈 


这 种 方法 精密 度 和 更 新 率 高 ,但 是 操作 的 自由 度 严格 受 限于 机 械 结构 。 此 外 ， 大 多 数 机 
械 跟踪 系统 只 能 提供 单 点 的 测量 ， 可 能 只 测量 位 置 或 者 同时 测量 位 置 和 方 回 ， 但 是 机 械 臂 的 
运动 约束 阻止 了 其 到 达 工 作 范 围 的 每 一 个 位 置 。 因 此 ， 机 械 跟 踪 可 以 被 看 作 是 由 外 而 内 的 有 
严格 工作 区 限制 的 系统 。 对 于 增强 现实 而 言 ， 不 布 望 在 虚实 融合 的 视野 中 出 现 关 节 臂 。 

机 械 跟 蹊 系统 通常 作为 昂贵 的 实验 室 设备 中 的 一 部 分 ， 通 稼 不 适合 大 众 使 用 。 如 今 机 械 


跟 蹊 很 少 用 于 增强 现实 上 。 不 过 ， 考 虑 到 机 械 跟 踩 的 高 精度 ， 它 有 时 会 用 于 其 他 跟 踩 系统 的 
校准 或 评测 上 。 
3.4.2 ”电磁 跟踪 


电磁 跟 踊 用 固定 源 来 产生 三 个 正 交 磁场 ( 见 图 3.7 )。 它 通过 配备 了 三 个 正 交 线圈 的 小 型 
有 线 传 感 副 所 测 得 的 磁场 强度 和 方向 来 同时 测量 位 置 和 方向 。 随 距离 降低 的 场 强 和 连 线 通常 
将 其 工作 范围 限制 在 直径 1 ~ 3m 的 半球 内 。 
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图 3.7 Razer Hydra 是 一 款 小 范围 电磁 跟踪 设备 ， 主 要 为 桌面 应 用 设计 。 提 供 相对 于 球 
形 底座 的 两 个 手持 操纵 杆 控制 器 的 6 自由 度 位 次 


基于 信和 号 传播 方 回 的 考虑 ， 电 磁 跟 踪 可 以 被 归 类 为 由 内 而 外 的 工作 方式 。 但 是 ， 相 对 狭 
小 的 工作 空间 和 连 线 不 能 提供 类 似 于 其 他 由 内 而 外 方式 的 操作 目 由 。 电 磁 跟 踊 的 一 个 显著 优 
势 是 它 不 需要 可 视 ， 因 此 可 以 用 于 遮挡 的 情况 。 但 同时 它 又 很 容易 受 附 近 的 铁 磁 材料 或 其 他 
电磁 干扰 的 影响 。 和 总 的 来 说 ， 如 今 电 磁 跟 踩 系统 很 少 用 于 增 蝇 现实 中 。 
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3.4.3 超声 波 跟 踩 


超声 波 跟踪 测量 了 声 脉冲 从 信和 号 源 到 传感器 的 飞行 时 间 。 当 存在 一 个 独立 (有 线 或 红外 ) 
的 同步 信道 时 ， 通 过 采用 三 边 测量 法 三 次 测量 就 是 够 了 了。 否则 可 能 需要 进行 额外 的 测量 。 虽 
然 多 个 超声 波 传 感 着 可 以 同时 对 一 个 信号 进行 测量 ， 但 是 多 个 信和 号 源 必 须 依 次 发 送 脉冲 以 避 
免 干扰 ， 这 和 较 低 的 声速 一 起 把 更 新 率 限 制 在 每 秒 10 ~ 50 次 测量 ， 而 这 必须 分 配给 所 有 的 
跟踪 对 象 。 进 一 步 的 限制 包括 : 为 了 接收 清晰 ， 需 要 信和 号 源 和 传感器 可 视 ; 易 受 嗜 杂 的 环境 
噪声 的 干扰 ; 对 与 空气 温度 有 关 的 声速 的 依赖 。 

超声 波 跟 踪 可 以 采用 由 外 而 内 或 者 由 内 而 外 的 结构 。 值 得 注意 的 是 ， 早 期 的 Intersense 
IS-600 和 IS-900 家 族 [Foxlin et al. 1998] 等 超声 波 跟踪 系统 通过 融合 更 加 快速 的 惯性 传感器 
克服 了 超声 波 传播 更 新 率 相对 较 低 的 问题 。 男 一 个 众所周知 的 由 外 而 内 的 结构 是 由 AT&T 
剑桥 研究 所 [Newman et al. 2001] 开发 的 Bat (Hat) 系统 ( 见 图 3.8 )。 在 使 用 这 个 系统 时 ， 
通 凋 佩戴 在 用 户 鹏 子 上 的 无 线 发 射 希 所 发 射 的 脉冲 会 被 安装 在 过 及 整个 办 公 环 境 的 天 花 板 上 
的 接收 大 采集 到 ， 通 过 对 脉冲 进行 编码 可 以 将 发 射 器 定位 到 每 一 位 用 户 。 通 过 结合 头盔 上 的 
三 个 Bat 发 射 句 ， 能 够 提供 完整 的 6 自由 度 头 部 跟踪 。Bat 是 首 个 多 人 广 域 室内 跟踪 系统 ， 
但 在 使 用 时 需要 复杂 的 固定 基础 设施 。 





图 3.8 AT&T Bat 系 统 是 一 个 超声 波 由 外 而 内 跟踪 系统 。 头 泵 上 安装 有 三 个 Bat 发 射 
器 。 手 上 的 发 射 句 起 指示 需 的 作用 。 接 收 需 安装 在 天 花 板 上 ， 通 过 分 时 系统 提 
供 了 建筑 物 级 的 大 范围 跟踪 (由 Joseph Newman 提供 ) 


3.5 ”移动 传感器 


固定 跟踪 系统 一 般 适 合 于 某 些 不 需要 用 户 进 行 太 多 移动 的 虚拟 现实 应 用 ， 与 此 相对 ， 增 
强 现实 的 跟踪 系统 应 该 是 可 移动 的 。 不 幸 的 是 ， 在 无 约束 环境 下 漫游 的 增强 现实 用 户 (特别 
是 在 户外 ) 不 能 操控 物理 基础 设施 。 同 样 ， 室 外 用 户 不 能 指望 恒定 质量 的 无 线 服 务 。 因 此 ， 
对 跟踪 的 感知 和 计算 必须 由 移动 设备 在 本 地 完成 ， 通 常 不 会 有 环境 中 基础 设施 的 辅助 。 这 将 
应 用 限制 在 只 能 通过 移动 传感器 和 有 限 的 处 理 能 力 上 实现 的 技术 。 

诸如 智能 手机 或 平板 电脑 的 现代 移动 设备 装备 了 一 系列 传感器 。 虽 然 这 些 传 感 器 的 性 能 
被 外 部 约束 严重 限制 , 但 是 它们 被 集成 在 廉价 的 设备 中 且 持 续 可 用 ， 因 此 这 些 传感器 提供 
了 一 个 重要 的 机 会 。 我 们 首先 讨论 非 视觉 传感器 : 全 球 定位 系统 、 无 线 网 络 、 磁 强 计 、 陀 螺 
仪 、 线 性 加 速度 计 以 及 里 程 表 。 我 们 会 在 3.6 节 中 讨论 光学 跟踪 系统 。 
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全 球 定 位 系统 

全 球 导 航 卫 星系 统 ， 特 别 是 由 美国 开发 的 全 球 定 位 系统 (GPS) [Getting 1993]， 测 量 由 
地 球 轨道 卫星 发 送 的 编码 无 线 电信 和 号 的 飞行 时 间 ， 本 质 上 表示 了 一 个 行星 尺寸 的 由 内 而 外 的 
系统 ( 见 图 3.9 )。 如 果 能 够 接收 来 自 四 个 或 更 多 的 已 知 当 前 轨道 位 置 的 卫星 的 信和 号， 就 可 以 
计算 出 当前 在 地 球 表面 上 的 位 置 。 这 种 测量 的 精度 范围 从 1m 到 100m， 这 取决 于 可 见 卫 星 
的 数目 、 信 号 接收 环境 以 及 接收 器 的 质量 。 


全 球 定 位 系统 接收 天 


图 3.9 ”卫星 导航 系统 (例如 GPS) 测量 从 多 个 在 轨 卫 星 接收 到 的 信号 的 飞行 时 间 ， 并 通 
过 三 边 测量 法 确定 移动 接收 带 的 位 置 


原理 上 可 以 估计 3D 位置 ,但 是 通常 只 使 用 经 度 和 纬度 ， 而 高 度 由 于 经 常会 受到 测量 误 
差 的 影响 而 很 少 被 考虑 。 由 于 卫星 信号 被 墙壁 反射 并 导致 多 径 信 号 传播 ， 因 此 通常 无 法 在 室 


内 获得 可 靠 的 接收 ， 这 使 得 位 置 不 能 被 可 靠 地 获取 。 通 过 GPS 不 能 确定 方向 ， 必 须 从 其 他 
fe Rar PARK, 


通过 采用 差分 全 球 定 位 系统 (DGPS)， 可 以 获得 更 高 的 精度 。DGPS 使 用 从 地 面 站 接收 的 
单独 校正 信号 来 测量 当前 影响 信号 传播 的 大 气 扰动 ( 见 图 3.10 )。 校 正信 号 可 以 通过 商业 服务 


获得 ， 但 是 需要 一 个 固定 的 网 络 连接 (或 者 是 额外 的 无 线 电线 路 ) 来 操作 移动 GPS 设备 。 





全 球 定 位 系统 接收 器 


校正 信号 


图 3.10 ”差分 GPS 通过 补偿 由 大 气 扰动 造成 的 测量 误差 来 提高 位 置 精度 。 校 正信 号 由 
附近 的 基站 网 络 计 算 并 通过 无 线 网 络 传输 


实时 运动 (RTK) GPS 进一步 提高 了 DGPS 的 精度 ， 通 过 额外 测量 信号 的 相位 将 误差 降 
到 了 只 有 几 厘 米 。 但 是 传统 的 RTK 都 需要 大 型 接收 器， 通常 直径 在 10cm 或 以 上 。 即 使 是 
在 今天 ,“ 轻 量 级 ”系统 仍然 有 手掌 大 小 且 重 达 1kg。 因 此 ， 该 技术 对 于 整合 进 智能 手机 来 
说 太 繁 重 并 且 对 于 消费 产品 来 说 太 贵 〈 几 千 美 元 )。 这 种 情况 正在 改变 ， 随 着 RTK 处 理 植 入 
智能 手机 计算 ， 网 络 化 的 实时 动态 定位 (NRTK) 协议 将 逐渐 标准 化 [Hwang et al. 2012]. 

GPS 只 测量 位 置 ， 且 更 新 率 通 常 是 1Hz、5$Hz 或 10Hz (每 秒 更 新 次 数 )。 最 近 的 消费 级 
芯片 组 实现 了 50Hz 的 更 新 率 。GPS 广泛 地 应 用 于 当前 的 消费 级 基于 位 置 服务 的 应 用 ， 但 是 
其 自身 并 不 适合 增强 现实 严格 配 准 所 需要 的 高 精度 跟踪 。 最 近 的 测试 表明 在 城市 峡谷 中 智能 
手机 GPS 的 精度 是 5 ~ 10m， 在 开阔 的 区 域 是 0.5 ~ 5m [Dabove and Petovello 2014]。 即 便 
如 此 ， 它 的 全 球 可 用 性 使 其 可 以 作为 计算 机 视觉 ( 见 第 4 章 ) 等 其 他 定位 技术 的 一 种 约束 补 
充 。 在 现代 智能 手机 上 ，GPS 也 与 惯性 传 感 和 无 线 网 络 信号 强度 计算 等 技术 相 结 合 。 


3.5.2 TAN% 


目前 的 WiFi、 蓝 牙 和 移动 电话 网 络 等 无 线 网 络 基 础 设施 能 够 用 于 确定 个 人 位 置 
[Hightower and Borriello 2001]。 每 个 提供 无 线 网 络 的 基站 会 广播 一 条 独一无二 的 标识 CID), 
可 以 在 一 个 关联 此 ID 和 特定 地 图 位 置 的 数据 库 中 查阅 到 。 在 这 些 网 络 中 进行 通信 的 移动 电 
话 通 常 具 有 从 被 标识 的 基站 无 线 网 络 中 推断 粗略 全 球 位 置 的 功能 。 

最 简单 的 定位 方法 只 使 用 观察 到 基站 的 标识 。 进 一 步 的 结果 可 以 通过 测量 基站 的 信号 强 
度 来 估计 距离 以 及 应 用 基于 三 边 测量 的 几何 推理 。 遗 憾 的 是 ， 专 门 跟 踊 基 站 的 方式 增加 了 基 
础 设施 的 成 本 ,因此 很 少 使 用 。 当 可 见 基 站 少 于 三 个 时 ， 位置 不 能 被 完全 确定 。 即 使 有 足够 
多 的 基站 可 见 ， 通常 精 度 也 会 在 几米 之 内 。 此 外 ， 墙壁 或 其 他 结构 所 形成 的 遮挡 会 使 得 特定 
区 域 的 覆盖 范围 发 生变 化 。 

通过 “指纹 识别 ”方式 能 够 获得 更 好 的 结果 ， 这 需要 在 工作 区 人 工 绘制 观察 到 的 信和 号 强 
度 。 基 于 蓝牙 的 低 功 耗 、 低 成 本 标识 可 能 会 成 为 针对 室内 和 定位 的 专用 基础 设施 ， 例 如 在 零售 
业 中 的 应 用 。 

来 自 移动 通信 手机 信号 塔 广 播 信 号 的 强度 为 使 用 WiFi 提供 了 选项 。 如 有 果 能 够 测量 足够 
数量 的 信和 号 塔 信号 ， 那 么 可 以 通过 三 边 测 量 或 概率 图 确定 位 置 ， 但 是 该 测量 结果 比较 粗略 
且 信 号 之 间 的 重 释 受 限 。 辅 助 全 球 定位 系统 ( A-GPS) 使 用 信号 塔 标识 作为 加 速 GPS 初始 
化 的 前 提 位 置 。 考 虑 到 通常 在 移动 设备 中 同时 可 用 GPS, WiFi 和 蜂窝 无 线 功 能 ， 通 常会 通 
过 整合 这 些 信 息 来 提高 覆盖 范围 、 速 度 和 位 置 精 度 [LaMarca et al. 2005] [Sapiezynski et al. 
2015]。 随 着 几 家 供应 商 (Skyhook, Google, Apple, Microsoft, Broadcom 及 其 他 公司 ) 长 
期 竞争 绘制 世界 各 地 主要 城市 街区 的 地 图 ， 以 及 来 自 数 十 亿 移 动 设备 用 户 的 众 包 信息 资源 宝 
库 ， 对 世界 上 发 达 地 区 ， 智 能 手机 和 平板 电脑 的 跟踪 精度 已 经 非常 高 。 室 内 和 室外 的 位 置 
测量 通常 能 够 超过 GPS 接收 需 自 身 在 户外 能 够 达到 的 平均 精度 (根据 [Dabove and Petovello 
2014]， 和 平均 精度 为 1 ~ 10m). 


3.5.3 BAM 


磁力 仪 〈 或 称 作 电 子 罗 盘 ) 通过 测量 地 磁场 的 方 回来 确定 相对 于 地 磁 北 极 的 方位 ， 因 此 
提供 了 全 球 定向 。 通 常 沿 三 轴 进 行 3 目 由 度 测量 。 需 要 注意 的 是 ， 传 感 硕 的 应 用 界面 可 能 仍 
然 只 有 单独 一 个 自由 度 。 大 多 数 移动 设备 中 的 微型 磁力 仪 基于 磁 阻 原理 ， 也 被 称 作 霍 尔 效 


应 。 遗 憾 的 是 ， 在 实际 中 由 于 电气 和 电子 设备 造成 的 局 部 磁场 的 干扰 ， 磁 测量 经 常 是 不 可 靠 
的 。Scall 等 人 [2009] 报道 过 很 容易 观察 到 高 达 30° 的 干扰 ( 见 图 3.11 )。 


Degrees 





图 3.11 每 一 个 现代 智能 手机 都 包含 磁力 仪 ， 但 是 单独 传感器 的 精度 通常 都 很 低 。 本 图 
显示 了 当 佩 戴 在 用 户 右手 上 的 金属 手表 接近 该 设备 时 随时 间 产 生 的 航向 误差 。 


由 Gerhard Schall Ht, M Eih 


3.5.4 PEIRIN 


电子 陀螺 仪 是 测量 旋转 速度 的 设备 。 它 测量 微小 震荡 物体 
的 科 里 奥 利 力 ， 当 设备 旋转 时 物体 会 维持 振动 面 ( 见 图 3.12 )。 
通过 数值 积分 可 以 计算 出 方向 。 通 常 将 三 个 正 交 的 陀螺 仪 结合 
在 一 个 微机 电 系 统 (MEMS) 中 来 提供 全 部 3 自由 度 姿态 测量 。 
惯性 传 感 硕 是 无 源 的 ， 但 只 提供 相对 测量 值 ， 所 以 很 少 被 单独 
使 用 。 它 们 有 高 达 1000Hz 的 更 新 率 。 但 是 积分 的 采用 使 得 它 
们 易 受 累计 漂移 的 影响 。 

与 航空 业 中 使 用 的 陀螺 仪 类 似 ， 激 光 陀 螺 仪 或 者 光纤 陀螺 
仪 通过 在 环形 光纤 线圈 的 端 部 观察 干涉 光 ( 萨 格 纳 克 现象 ) 来 
测量 角 加 速度 COLA 3.13 )。 基 于 该 原理 的 设备 提供 了 比 机 械 
陀螺 仪 更 高 精度 的 测量 。 但 是 激光 陀螺 仪 对 于 消费 级 的 增强 现 
实 应 用 仍然 太 大 太 贵 。 唯 一 见 诸 文献 的 应 用 是 TOWNWEAR 
系统 [Satoh et al. 2001]， 它 是 由 日 本 混合 现实 系统 实验 室 资 助 
的 研究 原型 ( 见 第 1 章 中 对 该 设备 的 论述 ) 。 


3.5.5 ”线性 加 速度 计 
陀螺 仪 上 进行 惯性 位 置 测量 的 另外 一 个 传 感 顺 是 线性 加 速 
度 计 。 该 设备 也 是 通过 微机 电 方 式 建造 的 ， 可 以 用 于 无 源 的 加 


径 向 运动 We 
fay 


科 氏 运动 





图 3.12 微机 电 陀 螺 仪 测量 旋 
转轴 正 交 平面 外 运 
动 的 质量 振动 





图 3.13 ”基于 光纤 中 萨 格 纳 克 
现象 的 激光 陀螺 仪 有 
很 高 的 精度 


70 $3F 


速度 估计 。 加 速度 在 微小 物体 上 施加 一 个 力 ( 见 图 3.14 )， 然 后 分 别 测 量 沿 每 个 主轴 产生 的 
位 移 。 微 机 电 传 感 器 测量 固定 电极 和 移动 电极 之 间 电 容量 的 变化 ， 或 者 是 由 移动 部 件 引起 弯 
曲 的 压 阻 效应 。 在 减 去 重力 的 影响 并 对 数值 进行 两 次 积分 之 后 ， 能 够 根据 加 速度 测量 值 计 算 
位 置 。 


a ee 





弹力 





图 3.14 ”一 维 线性 加 速度 计 测 量 当 传 感 大 加速 时 弹 黄 之 间 悬 保 的 小 物 块 的 位 移 


该 原理 可 用 来 确定 相对 于 起 始点 的 位 置 。 因 为 相对 测量 受 漂移 影响 ， 所 以 它 或 者 只 用 于 
非常 短 的 时 间 间 隔 ， 或 者 与 其 他 绝对 位 置 测量 系统 相 结合 。 

加 速度 计 的 另 一 个 常见 的 应 用 是 估计 重力 矢量 。 如 果 设 备 不 移动 的 话 ， 沿 重力 矢量 方 回 
已 知 的 加 速度 大 约 是 9.81m/s 。 通 过 用 三 轴 加 速度 计 测 量 重力 的 方向 ， 可 以 确定 2 自由 度 倾 
和 斜 角 。 通 过 结合 磁力 计 就 可 以 确定 一 个 稍 有 偏差 的 完整 3 自由 度 全 球 定 姿 。 

计 步 器 通常 使 用 加 速度 计 来 计算 用 户 的 步 数 ， 从 而 推算 行走 距离 。 这 可 以 通过 在 身体 茶 
处 安装 加 速度 计 并 分 析 随 时 间 推 移 加 速度 测量 的 最 大 全 来 实现 。 


3.5.6 BRR 


里 程 表 是 一 个 频繁 应 用 在 移动 机 各 人 或 车 
辆 上 来 测量 地 面 上 行进 距离 增 量 的 设备 ， 通 过 一 
个 机 械 或 光电 式 车 轮 编 码 俘 来 确定 轮子 在 地 面 上 
转 过 的 圈 数 。 采 用 多 编码 天 可 以 探测 到 设备 的 旗 
转 ， 例 如 ， 在 传统 的 电脑 鼠标 中 采用 低 成 本 的 里 
程 表 用 来 探测 鼠标 中 球 的 旋转 〈 见 图 3.15 )。 


3.6 XFIRE 


EPERE RRRA EE, KE B a 
WER, Ze, ANE AAT pa 3.15 机 械 鼠 标 是 广为人知 的 二 维 里 程 计 ， 


Ean 





强 现实 高 质量 注册 的 要 求 。 相 比 之 下 ， 数 码 相 它 通过 观察 跟踪 表面 上 球体 的 水 平和 
机 体积 小 、 价 格 低 ， 提 供 了 非常 丰富 的 传 感 输 午间 运动 来 进行 位 置 计算 

人 一 一 可 以 实时 获取 数 百 万 独立 像素 。 在 视频 

透视 式 增强 现实 显示 器 (这 在 第 2 章 进行 了 详细 论述 ) 中 ,摄像 机 已 成 为 增强 现实 系统 的 重 


要 组 成 部 分 ,但 是 甚至 在 应 用 其 他 的 显示 技术 时 ， 光 学 跟 踊 仍 然 很 容易 成 为 当今 增强 现实 最 
重要 的 物理 跟 踊 设备 之 一 。 

数码 相机 基于 互补 金属 氧化 物 半导体 (CMOS) 技术 或 者 电 谷 看 合 装 置 ( CCD) th. 
两 者 都 是 测量 从 摄像 机 中 心 到 每 个 像素 方向 观察 的 光 强 CULE 3.16 )。 因 为 比 CCD fe kar E 
快 、 更 便宜 、 功 耗 更 低 ， 大 多 数 移动 设备 使 用 CMOS 传 感 磺 。 如 有 果 要 求 有 最 佳 的 图 片 质量 ， 


特别 是 在 专业 摄影 中 ， 则 需要 使 用 CCD 传 感 希 。 除 传感器 自身 之 外 ， 摄 像 机 镜头 对 其 性 能 
也 起 到 重要 的 作用 。 与 只 有 1 ~ 2mm 直径 微小 镜头 的 摄像 手机 相 比 ， 带 有 较 大 镜头 的 工业 
摄像 机 能 提供 更 好 的 质量 。 因 此 传 感 希 的 类 型 、 镜 头 以 及 快门 的 类 型 (例如 全 局 快门 、 卷 帘 
快门 ) 决定 了 摄像 机 的 物理 性 能 。 





图 3.16 现代 数码 摄像 机 使 用 CCD 传感器 来 确定 人 射 光 的 强度 。 通 过 应 用 拜耳 模式 的 
滤波 希 添 加 颜色 〈 见 彩 捅 ) 


光学 跟 踩 的 魅力 源 于 低 成 本 摄像 机 提供 了 非常 丰富 的 测量 这 一 和 事实。 摄像 机 提供 的 像素 
可 以 通过 成 熟 的 计算 机 视觉 技术 进行 分 析 。 摄 像 机 和 运行 计算 机 视觉 算法 的 算 力 都 是 工业 研 
究 和 产品 开发 的 重要 领域 ， 并 在 持续 地 进行 改进 。 特 别 是 计算 机 视觉 技术 与 计算 性 能 共同 作 
用 的 结果 是 在 大 多 数 情况 下 甚至 不 需要 改进 摄像 机 系统 ， 表 明 摩 尔 定律 同样 预测 了 光学 跟踪 
性 能 的 提高 。 

在 本 蔬 的 剩余 部 分 ， 我 们 探讨 光学 跟踪 的 物理 和 技术 原理 ， 并 考虑 不 同 的 情况 ， 诸 如 : 

© 如 有 能 够 获得 类 比 于 摄像 机 图 像 的 数字 参考 模型 ， 或 者 如 果 这 种 数字 参考 模型 必须 

即时 建立 〈 无 模型 跟踪 )。 

o 如 朱 环 境 照 明 可 控 。 

© 如 未 在 环境 中 放 管 人 工 基准 点 是 可 接受 的 ， 或 者 如 采 环 境 必须 “保持 现状 ”。 

o 跟踪 对 象 怎样 能 被 识别 和 区 分 ? 

有 关 应 用 在 光学 跟 踊 方 法 中 的 计算 机 视觉 技术 在 第 4 划 中 讲述 。 


3.6.1 基于 模型 跟踪 与 无 模型 跟踪 


使 用 从 摄像 机 获得 的 图 像 时 ， 需 要 将 其 与 某 种 参考 模型 进行 比较 。 如 果 该 模型 是 在 启动 
跟 踩 系统 之 前 获得 的 ， 则 这 种 方法 称 作 基于 模型 跟踪 。 男 一 种 叫做 无 模型 跟踪 一 一 这 名 字 稍 
向 有 些 误 导 ， 因 为 在 实际 跟踪 过 程 中 需要 临时 模型 。 无 模型 跟踪 不 需要 预先 构建 模型 ， 增 加 
了 灵活 性 。 此 外 ， 在 线 同 时 定位 与 地 图 构建 ( SLAM) 技术 能 够 将 三 维 跟踪 和 三 维 扫描 结合 
起 来 。 与 里 程 表 类 似 ， 无 模型 跟踪 只 能 相对 于 起 始点 确定 姿态 。 如 果 单 独 使 用 无 模型 跟踪 ， 
增强 现实 中 的 虚拟 对 象 必须 自动 放置 且 不 能 提前 注册 到 真实 世界 中 。 目 前 ， 结 合 了 基于 模型 
跟踪 和 无 模型 跟 足 优点 的 商用 系统 已 经 可 以 买 到 了 ， 如 Vuforia E, 


3.6.2 照明 


光学 跟 踊 中 首先 讨论 的 是 光 的 性 质 。 我 们 必须 区 分 依 徘 天 然 上 照明、 被 动 照 明 的 方法 和 主 
动 照明 的 方法 。 
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1. 被 动 照 明 

位 动 照 明 中 的 光源 不 是 跟踪 系统 的 一 个 组 成 部 分 。 被 动 照明 既 可 以 来 目 目 然 光 源 ， 特 别 
是 太阳 光 ， 又 可 以 来 和 目 人 造 光 源 ， 比 如 天 花灯 。 与 人 类 相似 ， 常 规 摄像 机 看 见 的 是 由 环境 中 
物体 反射 的 可 见 光 谱 〈380 ~ 780mm) 内 的 光 。 使 用 带 有 人 被动 照明 的 常规 数码 摄像 机 是 物理 
配置 方面 最 简单 的 光学 跟踪 方法。 

采用 被 动 照明 的 光学 跟 踊 的 挑战 是 确保 在 图 像 中 快速 可 靠 地 发 现 感 兴趣 的 对 象 。 这 需要 
有 足够 的 图 像 对 比 度 ， 而 这 反 过 来 需要 环境 中 有 显著 的 视觉 特征 以 及 足够 的 间接 光 来 凸显 图 
像 中 的 这 些 特征 。 室 内 光学 跟 踩 经 稼 会 遭受 光照 不 足 的 困境 ， 即 使 在 这 种 环境 中 人 类 能 够 很 
舒适 地 看 见 这 些 对 象 。 市 有 微小 镜头 的 数码 摄像 机 可 能 仅仅 是 不 能 获取 足够 的 光 来 提供 合适 
的 图 像 质 量 ， 这 与 任何 曾经 试图 在 昏暗 的 室内 环境 下 用 不 开 闪 光 灯 的 手机 照相 的 人 所 经 历 的 
一 样 。 

2. 主动 照明 

主动 照明 通过 纺 合 市 有 主动 照明 光源 的 光学 传 
感 硕 摆脱 了 对 环境 中 外 部 光源 的 依赖 。 因 为 可 见 光 
谱 中 的 主动 照明 改变 了 用 户 感知 环境 的 方式 ， 从 而 
令 人 烦 扰 ， 所 以 出 现 了 依靠 红外 照明 的 方法 。 红 外 
光源 大 多 基于 LED 聚光灯 ( 见 图 3.17)， 可 以 在 人 
类 观察 者 无 法 察觉 的 情况 下 照 亮 跟 踊 区域。LED 标 
志 可 以 安 疙 在 环境 中 ， 如 果 电 池 能 够 被 放 进 设备 当 
中 ， 也 可 以 安装 在 目标 对 象 上 。 装 备 了 红外 滤 光 片 
的 摄像 机 只 获取 红外 线 ， 从 而 可 以 获取 容易 被 处 理 
的 局 对 比 度 图 像 。 这 种 方法 不 适用 于 存在 强烈 阳 交 图 3.17 X H Advanced Realtime Tracking 





的 跟 踩 ， 因 为 太阳 光 中 包含 可 观 的 红外 成 分 。 的 跟踪 系统 使 用 红外 线 主动 照明 。 
3. 结构 光 LED 聚光灯 与 一 个 带 有 网 络 接口 
结构 光 将 已 知 图 案 映射 到 场景 上 ， 比 应 用 非 结 智能 摄像 机 的 图 像 处 理 器 集成 


构 光 源 的 主动 照明 前 进 了 一 步 。 结 构 光 源 可 以 是 常 

规 的 投影 机 或 者 是 激光 光源 。 摄 像 机 采集 到 的 反射 影像 被 用 于 探测 场景 的 几何 结构 和 已 有 对 
Re. 本质 上 ， 如 果 环 境 本 身 不 足以 被 自然 识别 ， 那 么 环境 中 的 特征 会 被 主动 标示 。 结 构 光 
在 红外 光谱 和 可 见 光 谱 中 都 起 作用 。 

与 未 像素 测量 光 强 的 摄像 机 传 感 右 不 同 ， 激 光 测 距 测量 从 表面 反射 的 激光 脉冲 的 飞行 时 
加。 该 测量 原理 保证 即使 在 距离 较 远 也 可 以 获得 较 高 的 测量 精度 ， 所 以 经 常 被 用 在 机 器 人 和 
测绘 中 。 在 其 最 简单 的 实现 形式 中 只 测量 一 段 单 独 的 距离 。 这 种 单 点 激光 测 距 仪 是 一 种 手动 
瞄 准 的 手提 式 设备 ， 在 建筑 等 行业 中 用 来 取代 卷 尺 。 

通过 添加 旋转 镜 激 光 可 以 被 引导 为 一 维 或 者 二 维 的 ， 这 种 构造 有 时 被 称 为 激光 扫 摘 仪 。 
一 维 激 光 扫 描 仪 锌 广泛 地 安装 在 移动 机 器 人 上 作为 自主 导航 的 输入 ， 而 固定 二 维 激光 扫描 
仪 提供 了 用 于 三 维 物 体重 建 的 测 距 图 像 。 远 程 激光 传 感 也 叫 LIDAR(“ 光 ”和 “雷达 ”的 
混合 )， 主 要 应 用 在 测绘 应 用 中 。 

最 近 ， 低 成 本 的 测 距 图 像 传感器 广泛 地 应 用 于 视频 族 戏 中 目 然 人 体 运 动 的 跟踪 。 其 中 最 
突出 的 例子 是 Microsoft Kinect〈 见 图 3.18 ) 。 第 一 代 Kinect 使 用 了 红外 线 激光 投影 的 结构 光 
模式 ， 而 第 二 代 Kinect 使 用 了 飞行 时 间 摄 像 机 。 测 距 传感器 与 常规 摄像 机 刚性 结合 在 一 个 


称 作 RGB-D 摄像 机 的 单一 设备 中 (“”D ”代表 涤 度 )。 这 类 设备 对 于 增强 现实 而 言 很 有 吸引 
力 ， 因 为 它们 可 以 提供 场景 周围 注册 的 图 像 和 几何 信息 ， 目 前 RGB-D 摄像 机 足够 小 ， 已 经 
可 以 安放 在 移动 设备 上 ， 虽 然 对 移动 应 用 而 言 功 耗 仍然 是 一 个 值得 关注 的 问题 。 


激光 投影 仪 RGB 深度 传感器 





RGB 图像 红外 图 像 深度 图 
b) c) d) 
图 3.18 a) Microsoft Kinect V1 是 一 款 RGB-D 摄像 机 ， 通 过 手势 识别 来 控制 Xbox HF 
戏 。b) EM RGB 摄像 机 提供 一 幅 常 规 彩色 图 像 。c) 激光 投影 仪 在 场景 中 投射 
不 可 见 的 红外 光 点 图 形 。d) 深度 传感器 使 用 红外 摄像 机 观测 该 光 点 图 形 并 计 
算出 深度 图 。 深 度 图 使 用 颜色 编码 显示 ， 由 近 及 远 为 从 红色 到 监 色 LEIA) 


3.6.3 标志 点 与 目 然 特征 


与 被 动 照 明和 主动 照明 之 间 的 区 别 类 似 ， 我 们 将 跟 踩 目标 分 为 “有 目 然 特 征 ” 和 “有 人 
工 特征 ”两 类 。 后 者 通常 被 称 为 标志 点 或 基准 点 。 理 想 情 况 下 ， 虽 然 我 们 在 体验 增强 现实 前 
不 需要 对 环境 进行 改造 ， 但 是 通过 改造 环境 可 以 使 用 更 简单 、 更 健壮 的 跟踪 算法 。 如 果 不 使 
用 标志 点 并 且 我 们 跟踪 的 是 自然 环境 ， 这 种 方法 被 称 为 自然 特征 跟踪 。 标 志 点 和 目 然 特征 跟 
踪 都 能 用 于 基于 模型 的 跟踪 。 在 使 用 基于 标志 点 的 跟踪 方法 时 ， 首 先 需 要 有 数字 模型 (为 了 
易于 区 分 和 识别 )， 然 后 制造 物理 对 象 〈 例 如 纸板 标志 点 ) 来 与 之 匹配 。 在 使 用 基于 自然 特征 
的 跟踪 方法 时 ， 先 有 物理 对 象 ， 然 后 使 用 扫描 仪 获取 与 之 匹配 的 数字 模型 。 在 许多 情况 下 ， 
同一 摄像 机 首先 用 于 扫描 环境 ， 随 后 用 于 光学 跟踪 。 

1. 标志 点 

正如 我 们 以 前 注意 到 的 ， 光 学 跟踪 需要 足够 的 对 比 度 来 解 译 图 像 。 视 环境 而 定 ， 跟 踊 对 
象 的 表面 特性 可 能 不 足以 可 靠 地 用 于 识别 跟踪 对 象 的 特征 。 首先 ， 对 象 可 能 会 被 均匀 地 涂 上 
很 少 或 没有 纹理 的 颜色 ， 比 如 白色 的 墙 ， 因 此 图 像 不 会 包含 任何 可 识别 的 特征 。 其 次 ， 对 象 
ONAT, A ER, we, MR 
有 重复 的 纹理 ， 比 如 格子 桌布 或 者 有 同样 窗户 的 房屋 正面 ， 从 而 导致 对 象 的 细节 图 像 在 关于 
该 图 像 实 际 在 对 象 上 获取 的 位 置 是 模糊 不 清 的 。 

这 些 很 难 解 译 的 情况 能 够 通过 使 用 标志 点 来 克服 ( 见 图 3.19 )。 标 志 点 就 是 放 在 跟 踊 对 
象 表面 的 已 知 图 案 或 者 附属 于 跟踪 对 象 的 已 知 可 跟踪 形状 。 在 设计 标志 点 时 ， 需 要 保证 能 够 
尽 可 能 简单 可 靠 地 检测 到 图 像 中 它们 的 外 观 ， 这 可 以 通过 选择 有 最 优 对 比 度 且 容易 检测 的 图 
形 来 实现 。 
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图 3.19 方形 和 圆 形 是 最 常用 的 标志 点 设计 。 有 大 量 的 设计 被 提出 ， 其 中 大 多 数 依 菲 兄 
制造 的 黑白 设计 ， 通 过 内 网 图 案 或 条 形 码 进行 区 分 (由 Daniel Wagner 提供 ) 


最 成 功 的 标志 点 设计 是 圆 形 [Hoff et al. 1996] [State et al. 1996] [Foxlin and Naimark 2003] 
或 者 方形 [Rekimoto 1998] [Kato and Billinghurst 1999] [Wagner et al. 2008a] [Fiala 2010]。 圆 形 
形状 投影 为 图 像 中 的 椭圆 ， 而 方形 投影 为 图 像 中 的 四 边 形 ， 这 两 种 形状 都 很 容易 被 检测 到 ( 见 
图 3.20 )。 圆 形 只 产生 一 个 质心 ， 而 方形 产生 四 个 抛 角 点 。 理 论 上 恢复 完整 的 6 自由 度 位 姿 
需要 至 少 三 个 点 ， 而 实际 使 用 时 ， 需 要 第 四 个 点 来 获得 唯一 的 解 ， 这 意味 者 圆 形 必 须 总 是 以 
一 种 已 知 的 构造 成 组 使 用 ， 而 单独 的 方形 就 是 够 用 于 检测 了 。 但 是 ,方形 所 有 的 四 个 拐角 都 
必须 被 正确 地 标识 。 通 过 在 圆 形 或 方形 形状 中 添加 旋转 不 变 的 图 案 可 以 方便 识别 ， 以 此 区 分 
多 标记 并 确定 标记 参加 。 





a) b) 
Al3.20 ”标志 点 很 容易 被 检测 ， 是 第 一 种 广泛 使 用 的 光学 跟踪 技术 。a) 2004 年 ， 运 行 
在 Windows CE 系统 设备 上 的 Studierstube Ringar, H Daniel Wagner 提供 。b ) 


‘ee [1] 4p Andrei State 提供 ) 


一 些 印刷 的 标志 点 可 以 粘 在 平整 的 对 象 表面 上 ， 而 其 他 的 标志 点 设计 包含 能 够 刚性 放置 
在 跟踪 对 象 上 的 球体 。 球 体 的 优点 是 在 图 像 中 的 投影 总 是 圆 形 ， 不 受 视点 约束 。 因 此 ， 球 形 
目标 广泛 应 用 于 跟踪 总 是 相对 于 摄像 机 改变 方位 的 敏捷 对 象 一 一 特别 是 跟踪 人 类 或 以 人 类 为 
中 心 的 设备 ， 诸 如 手柄 或 者 立体 眼镜 。 因 为 单独 的 球形 标志 点 只 被 识别 为 单 点， 所 以 至 少 需 


要 三 个 这 样 的 标记 。 遗 憾 的 是 ,球形 标志 点 不 适合 通过 条 形 码 或 其 他 独特 属性 进行 标识 。 因 
此 ， 三 到 五 个 一 组 的 球形 之 间 的 距离 被 用 作 唯 一 标识 ( 见 图 3.21 )。 这 是 一 种 相当 弱 的 判 据 ， 
且 多 组 之 间 的 形状 差异 必须 显著 以 避免 收 义 。 





图 3.21 被 动 红 外 目标 ， 诸 如 放置 在 立体 快门 眼镜 上 的 “鹿角 ”， 由 四 个 或 者 更 多 (这 
里 是 五 个 ) 的 回复 反射 球体 组 成 


大 多 数 的 标志 点 被 设计 为 黑白 形状 的 原因 是 这 种 设计 提供 了 良好 的 对 比 度 且 与 摄像 机 内 
部 如 何 处 理 颜 色 无 关 。 此 外 ， 这 种 标记 很 容易 通过 办 公 室 打印 机 进行 打印 ， 但 是 应 该 避免 打 
印 在 光 面 纸 上 ， 因 为 它 在 某 些 视角 会 产生 镜面 反射 干扰 。 在 对 图 像 应 用 二 进 制 国 值 之 后 ， 通 
过 寻找 一 个 和 白 底 黑 框 的 形状 就 足够 识别 候选 标志 点 了 。 

回复 反射 稍 也 可 以 用 于 制造 标志 点 ， 从 这 种 材料 在 安全 服装 中 的 应 用 就 可 以 知道 它们 可 
以 将 大 部 分 光 反 射 回 到 照射 的 方向 。 当 主要 的 照明 源 是 被 放置 在 靠近 摄像 机 位 置 且 在 摄像 机 
周围 呈 环 形 的 聚光灯 时 ， 回 复 反 射 稍 将 会 产生 高 对 比 度 图 像 。 

制造 覆盖 回复 反射 稍 的 球形 标记 并 与 红外 照明 组 合 使 用 应 用 十 分 广泛 ， 这 使 得 图 像 
中 有 非常 高 对 比 度 的 、 可 以 可 靠 检测 的 斑点 ， 也 已 经 出 现 了 应 用 回复 反射 稍 材 料 的 平面 
标志 点 。 

2. 目 然 特征 

如 果 我 们 不 希望 或 者 不 能 够 在 跟踪 对 象 上 放置 标志 点 ， 我 们 只 能 凭借 自然 发 生 的 特征 
来 进行 跟踪 。 自 然 特征 跟踪 通常 需要 更 好 的 图 像 质 量 和 更 多 的 计算 资源 ， 最 近 应 用 得 越 来 
越 广 泛 。 

使 用 最 频繁 的 自然 特征 是 所 谓 的 兴趣 点 或 关键 点 ， 它 们 在 跟踪 对 象 上 是 显著 的 点 特征 
( 见 图 3.22 )。 兴 趣 点 必须 很 容易 被 找到 ， 并 且 它 们 在 对 象 上 的 位 置 应 该 在 变化 的 视角 下 保持 
静止 。 实 际 上 ， 应 用 兴趣 点 时 需要 足够 稠密 和 不 规则 的 表面 纹理 。 

如 果 轮 廊 很 容易 被 检测 ， 无 装饰 的 立 面 或 一 些 工 业 对 象 等 不 具有 很 多 纹理 的 对 象 可 以 应 
用 边缘 特征 来 跟踪 。 但 是 ， 如 果 没 有 更 多 的 知识 ， 几 乎 不 可 能 基于 单一 边缘 进行 识别 ， 必 须 
通过 多 边缘 联合 解 译 才 能 进行 可 徘 的 目标 检测 (ILA 3.23 )。 

除了 诸如 兴趣 点 和 边缘 特征 之 类 的 局 部 特征 外 ， 我 们 也 可 以 将 摄像 机 图 像 和 特定 视点 获 
得 的 关键 帧 进行 整 幅 图 像 对 准 比 较 ， 遗 憾 的 是 ， 这 种 方法 很 难 用 于 较 大 环境 。 
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图 3.22 在 室外 场景 检测 的 SIFT 兴趣 点 。 圆 的 尺寸 是 兴趣 点 的 “尺度 ”估计 (由 
Martin Hirzer 提供 ) 





图 3.23 来自 剑桥 大 学 的 Going Out 系统 沿 图 像 中 强 边 绿 取 样 ， 并 将 它们 与 已 知 的 室外 
场景 模型 进行 对 比 (由 Gerhard Reitmayr 和 Tom Drummond HEt, MEHA) 


这 种 不 需要 事先 准备 就 进行 目标 对 象 跟 踩 的 能 力 提 供 了 很 大 便利 ， 将 最 终 寻 致 目 然 特 征 
跟 蹊 取代 标志 点 跟 蹊 。 不 过 ， 我 们 必须 考虑 到 光学 跟踪 的 固有 步骤 是 图 像 特征 和 给 定数 字 参 
考 模型 的 比 对 ， 其 中 标志 点 的 参考 模型 是 由 设计 给 出 的 ， 而 目 然 目 标 对 象 的 参考 模型 需要 从 
其 他 来 源 获 得 。 对 于 人 造 对 象 ， 有 时 可 以 利用 计算 机 辅助 设计 (CAD) 模型 。 

如 果 这 些 条 件 不 能 满足 ， 就 很 有 必要 通过 单独 的 采集 步骤 来 获得 参考 模型 ， 比 如 三 维 扫 


描 。 这 一 扫 摘 步 又 不 是 终 妆 用 户 友 好 的 ， 代 表 了 目 然 特征 跟 踩 中 的 一 个 主要 瓶颈 。 通 过 在 跟 
踪 初 始 化 步骤 中 集成 这 一 操作 ， 小 型 目标 对 象 的 捕获 可 以 在 茶 种 程度 上 对 用 户 隐 藏 [Mulloni 
et al. 2013]。 与 之 相对 ， 获 得 整个 房间 或 者 甚至 整个 城市 等 更 大 的 模型 需要 劳动 密集 型 的 预 
处 理 。 


3.6.4 目标 识别 


如 果 我 们 想 要 在 宽阔 的 区 域内 跟踪 多 个 对 象 或 者 移动 的 有 用户， 目标 识别 就 会 成 为 光学 跟 
踪 的 主要 问题 。 首 先 需 要 做 的 是 图 像 中 三 维 点 的 精确 测量 ， 然 后 是 检测 正确 的 特征 或 者 目 
标 。 无 疑 我 们 想 要 尽 可 能 多 的 区 分 目标 对 象 ， 但 是 必须 在 能 被 识别 对 象 的 数量 和 识别 可 靠 性 
之 间 进 行 权衡 。 支 持 较 大 的 对 象 集 必然 意味 着 它们 的 外 观 将 变 得 更 类 似 晶 更 容易 混淆 。 更 高 
ie 一 情况 ， 但 是 只 有 当 它 实际 上 促进 图 像 质量 的 改善 才 行 。 本 节 会 考虑 
一 权衡 对 光学 跟踪 系 设计 的 影响 。 
1. 标志 点 目标 识别 

pmp 点 的 条 形 码 设计 有 明确 的 信息 负 答 ， 这 表现 为 条 形 码 中 编码 位 的 数量 。 

ARTag SLR 3.19) FAMICOM 具有 36 位 原 

始 信息 的 存储 能 力 ， 其 中 2 位 用 来 确定 图 案 的 唯一 胃癌 ， 剩 下 的 34 位 用 于 实际 ID AT AR 

错 信 息 。 典 型 的 配置 是 把 6 ~ 12 位 分 配给 ID， 从 而 允许 有 几 千 个 唯一 的 标志 点 。 增 加 网 格 
分 辩 率 可 以 增加 原始 信息 的 容量 ， 但 这 对 成 功 地 从 图 像 中 提取 出 有 效 条 形 码 有 可 能 带 来 消极 
影响 。 增 加 用 于 ID 的 位 数 会 降低 纠 错 能 力 并 增加 了 混 消 条 形 码 的 可 能 性 ， 这 确定 了 标志 点 
数量 上 的 实际 上 限 。 

由 通过 球 间 距离 可 靠 区 分 的 球形 标志 点 组 成 的 目标 数量 更 少 。 通 常 使 用 5 个 球体 的 组 
合 ， 从 而 允许 至 多 一 个 球体 的 让 摘 。 但 是 球体 之 间 的 距离 差 必 须 大 于 一 个 最 小 值 ， 而 球体 目 
标的 尺寸 不 能 太 大 ， 这 实际 上 限制 了 同时 使 用 标志 点 的 数量 。 

在 广 域 跟 踪 通常 意味 着 确定 相对 于 静态 环境 的 移动 设备 摄像 机 的 位 姿 ， 该 问题 可 以 被 解 
释 为 对 一 个 非常 大 目标 的 跟踪 。 因 为 我 们 假设 已 经 建立 了 这 个 大 目标 的 完整 数字 模型 并 且 可 
以 得 到 它 所 有 的 独特 特征 ， BA RE SHEE TSIEN 

ix PS Ee i ER IIT PAE ( 见 图 3.24), . 
比如 带 有 印刷 标志 点 的 大 幅 海报 ， 或 是 固定 在 天 花 板 上 
的 个 人 基准 点 [Foxlin and Naimark 2003]。 只 能 辨识 
数 不 多 标志 点 的 系统 可 以 依靠 空间 分 割 覆 盖 更 大 的 区 域 
et al. 2002]。 在 这 个 方案 中 ， 每 一 部 分 (例如 ， 

一 个 房间 ) 中 都 应 用 了 不 同 的 模型 ， 并 且 标 志 点 可 以 
ace. 

当 人 允许 使 用 主动 照明 时 ， 可 以 用 脉冲 LED 实现 时 
域 的 二 进 制 编码 。 编 码 可 以 是 单独 LED 的 脉冲 闪烁 ” 
[Matsushita et al. 2003]， 也 可 以 是 多 个 LED 依次 闪烁 。 图 3.24 如 用 视 客 污染 不 是 同 题 ， 
通过 精心 的 时 间 同 步 以 及 高 更 新 率 ， 时 序 脉冲 可 以 覆盖 T ERER ER H UR LTE h E 
更 大 的 范围 。 例 如 HiBall 系统 [Welch et al. 2001] 通过 放置 基准 点 来 实现 
在 每 一 块 天 花 板 下 使 用 一 个 LED 来 履 盖 数 百 平米 的 区 域 ( 见 图 3.25 )。 为 一 种 实现 时 变 主动 
照明 的 方式 是 在 普通 屏 薪 上 显示 图 案 [Woo et al. 2012]. 








图 3.25 HiBall 使 用 定 癌 光 传 感 器 来 检测 安装 在 天 花 板 上 的 LED 信 标 的 周期 性 闪烁 (由 
北 卡 罗 来 纳 大 学 教 笛 山 分 校 的 Greg Welch 提供 ) 


2. 目 然 特 征 目标 识别 

目 然 特征 点 识别 的 规模 可 达成 百 上 干 甚至 百 万 。 在 这 种 规模 下 《例如 当 建 立 整 个 城市 的 
特征 点 数据 库 时 )， 碍 询 图 像 中 的 单独 特征 点 识别 不 能 提供 足够 的 判别 力 来 可 靠 地 识别 茶 一 
位 置 ， 这 时 图 像 中 的 特征 点 共存 是 必 不 可 少 的 。 

只 有 来 自己 知 在 真实 世界 中 相 邻 的 一 定数 量 的 特征 点 一 起 出 现在 图 像 中 时 ， 我 们 才 有 足 
够 的 把 握 说 特征 已 经 被 匹配 ( 见 图 3.26 )。 需 要 将 单独 的 图 像 中 提取 的 几 十 或 几 百 个 候选 特 
征 点 与 大 型 特征 点 数据 库 匹 配 ， 需 要 和 鲁 棒 的 统计 撤 术 来 排除 误 匹 配 并 在 内 点 中 确定 最 可 能 的 
匹配 。 





图 3.26 在 场景 的 新 视图 中 特征 匹配 允许 系统 从 跟 踊 模型 中 识别 已 知 兴趣 点 。 通 过 足够 
多 数量 的 点 对 应 ， 该 场景 可 以 被 识别 且 可 以 确定 当前 摄像 机 的 位 姿 (由 Martin 
Hirzer 提供 ， 见 彩 捅 ) 


遗憾 的 是 ， 在 广 域 操作 时 成 功率 和 跟 踊 精 度 都 不 能 保证 。 和 站 和 完 ， 在 大 环境 中 ， 失 败 或 者 
不 正确 的 识别 匹配 的 数目 会 更 大 。 其 次 ， 相 对 于 世界 坐标 系 ， 特 征 点 测量 的 精度 取决 于 环境 
的 空间 范围 和 其 他 参数 ， 从 而 特征 点 的 成 功 匹 配 不 会 目 动产 生 忆 精度 的 位 姿 信 计 。 

第 4 章 在 基于 标志 点 跟踪 和 无 标志 点 跟踪 之 后 论述 了 基本 的 计算 机 视觉 方法 。 


3.7” 传 感 羡 融合 


典型 的 移动 设备 融 有 多 个 传 感 顺 : 至 少 一 个 带 GPS 的 摄像 机 、 惯 性 传感器 以 及 罗盘 。 
假设 独立 的 跟踪 技术 《光学 和 非 光 学 的 ) 有 明显 的 优势 和 劣势 ， 那 么 利用 所 有 传感器 的 输入 
时 会 得 到 最 佳 的 跟踪 结果 。 一 种 显而易见 改善 单传 感 器 跟踪 性 能 的 方法 是 同时 使 用 多 种 类 型 
的 传 感 硕 。 一 方面 ， 在 混合 跟踪 系统 中 ， 这 种 传感器 的 结合 导致 系统 重量 、 成 本 和 功 耗 的 增 
加 ， 且 需要 在 传 感 带 之 间 进 行 额外 的 校准 工作 。 男 一 方面 ， 它 提供 了 优越 的 系统 性 能 ， 克 服 
了 单个 传 感 硕 的 局 限 。 

在 信号 处 理 和 机 器 人 学 中 ， 多 个 传 感 需 结合 通常 被 称 为 传感器 融合 。 这 需要 通过 传感器 
融合 算法 和 软件 体系 结构 来 支持 多 传感器 。Durrant-Whyte[1998] 提出 了 一 种 有 用 的 传感器 
融合 分 类 方法 。Pustka 等 人 [2011] 描述 了 实时 应 用 中 多 传感器 如 何 动态 融合 。 到 目前 为 止 ， 
已 经 出 现 了 许多 针对 增强 现实 跟踪 的 传 感 希 融合 的 成 果 案 例 [Foxlin 1996] [You and Neumann 
2001] [Klein and Drummond 2004] [Bleser and Stricker 2008]. 


3.7.1 互补 传感器 融合 


当 多 个 传 感 硕 提供 不 同 的 自由 度 时 ， 需 要 进行 互补 传感器 融合 。 除 了 融合 测量 数据 外 ， 
传 感 硕 之 间 没 有 交互 。 当 然 ， 如 果 传 感 希 不 同步 并 使 用 不 同 的 独立 更 新 率 ， 这 种 传感器 融合 
仍 非 多 事 ， 在 这 种 情况 下 ， 至 少 需 要 某 种 形式 的 时 间 内 插 和 外 推 法 。 

互补 传感器 融合 最 常见 的 应 用 是 融合 位 置 传 感 希 和 方向 传感器 产生 完整 的 6 自由 度 。 例 
如 ， 在 现代 移动 手机 上 ，GPS 提供 位 置信 息 ， 而 指南 针 和 加 速度 计 提 供 方向 数据 。 

一 些 类 型 的 传 感 硕 由 多 个 单 目 由 度 传 感 融 部 件 组 成 ， 也 可 以 视 作 互补 传感器 融合 的 例 
子 。 例 如 ， 陀 螺 仪 、 加 速度 计 以 及 磁 传 感 器 组 成 了 三 轴 正 交 传 感 器 。 


3.7.2 ”竞争 传感器 融合 


鄞 争 传 感 需 融合 结合 了 来 自 类 型 不 同 但 独立 测量 了 相同 自由 度 的 传 感 天 数据， 通过 某 种 
形式 的 数学 融合 提供 了 优化 的 测量 结果 。 

抑 余 传 感 顺 融合 是 竞争 传 感 希 融合 的 简单 变 体 。 当 主 传 感 器 提供 测量 结果 时 ， 次 传 感 
佑 的 测量 数据 会 被 丢弃 。 只 有 当主 传 感 带 停止 工作 时 ， 次 传 感 带 才 会 接管 。 例 如 ， 较 差 或 
间歇 性 的 GPS 接收 能 够 通过 汽车 的 里 程 表 以 及 行人 佩戴 的 计 步 器 来 进行 补偿 。Hallaway 
及 其 同事 [2004] 描述 了 一 种 广 域 室内 跟 踩 系统 ， 可 以 在 一 种 精度 高 但 工作 范围 有 限 的 超声 
ULER Ar (InterSense IS-600 ) 和 一 种 惯性 方向 传感器 、 计 步 需 与 红外 信 标 系统 的 组 合 之 
间 切 换 。 

葛 争 传 感 锅 融合 的 主要 应 用 是 组 合 多 个 不 同 特点 传感器 同时 获取 的 信息 。 因 为 多 传感器 
通常 具有 独立 的 更 新 率 并 提供 不 规则 的 交 蔡 测量 结果 ， 所 以 需要 建立 统计 模型 并 在 获得 新 
测量 值 时 更 新 模型 。 这 种 统计 融合 方法 可 以 结合 不 同 传感器 的 特点 ， 如 不 同 自 由 度 以 及 绝 
对 与 相对 测量 的 结合 [Allen et al. 2001]。 在 有 正确 参数 的 单 状态 模型 情况 下 ， 最 常 使 用 的 统 
计 传 感 器 融合 方法 是 扩展 卡尔 曼 滤 波 [Welch and Bishop 2001]。 无 迹 卡尔 曼 滤 波 [Julier and 
Uhlman 2004] 在 状态 转换 和 观测 模型 高 度 非 线 性 的 情况 下 可 以 获得 更 好 的 结果 。 在 代表 模 
型 可 能 状态 的 众多 “粒子 ”必须 保持 同步 情况 下 使 用 粒子 滤波 [Doucet et al. 2001]。 

在 融合 联合 缓慢 和 快速 传 感 紫 以 及 绝对 和 相对 传 感 右 时 ， 统 计 传 感 带 融合 是 一 个 很 好 的 
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方法 ， 后 者 的 例子 包括 用 于 方 癌 测量 的 惯性 测量 单元 (IMU)。 完 整 的 IMU 包括 三 个 正 交 单 
元 ， 分 别 是 磁力 计 单 元 、 陀 螺 仪 单元 和 加 速度 计 单 元 (虽然 可 以 有 更 少 的 传感器 配置 )。 通 
过 使 用 卡尔 曼 滤波 可 以 使 用 其 他 传 感 需 来 稳定 陀螺 仪 的 方位 测量 漆 移 。 

IMU 也 可 以 与 更 缓慢 、 更 精确 的 传感器 融合 ， 包 括 IMU 与 声学 跟 踊 融合 [Foxlin et al. 
1998], IMU 与 光学 跟踪 融合 [Ribo et al. 2002] [Foxlin et al. 2002] [Bleser and Stricker 2008], 
以 及 与 GPS 一 起 用 于 室外 场景 [Schall et al. 2009] [Oskiper et al. 2012]. 


3.7.3 UME Rasa 


在 协作 传感器 融合 中 ， 主 传 感 锅 依 徘 次 传 感 融 的 信息 来 获得 测量 结果 。 例 如 ， 大 多 数 现 
代 手 机 包含 辅助 全 球 定位 系统 ( A-GPS)， 可 以 通过 建立 了 无 线 电 通信 线路 的 手机 信号 塔 标 
识 的 位 置 约束 来 加 快 GPS 测量 的 速度 。 同 样 ，GPS 和 罗盘 技术 [Arth et al. 2012] 或 者 加 速度 
if [Kurz and BenHimane 2011] 可 能 被 用 作 目 然 特征 数据 库 的 索引 ， 从 而 使 得 特征 匹配 有 更 
高 的 成 功率 。 

在 更 一 般 的 意义 上 ， 协 作 传 感 右 融合 可 以 被 描述 为 任何 不 能 从 任意 单独 传 感 硕 中 特性 
的 测量 。 例 如 ， 应 用 光学 跟踪 的 立体 摄像 机 可 以 被 看 作协 作 传 感 硕 融合 ， 因 为 它们 已 知 的 
对 极 几 何 允许 将 两 个 二 维 测量 转换 为 单独 的 三 维 测量 。 类 似 地 ， 由 RGB 和 深度 传感器 组 成 
的 RGB-D 传感器 [Richardt et al. 2012] 提供 的 图 像 联合 滤波 可 以 进行 深度 图 像 的 无 噪声 上 采 
样 ， 从 而 具有 更 高 的 分 辨 率 。 

一 个 类 似 的 应 用 是 非 重 番 多 摄像 机 设置 。 例 如 ， 
PointGrey MLE RAL (UL 3.27) 利用 6 个 视 场 重 
BN te RA cS RAR, Boca tT 
宽 视 域 。 多 个 视 域 中 的 同一 个 对 象 需要 在 多 个 子 图 
像 中 进行 特征 检测 ， 并 被 解 译 为 一 个 整体 。 

协作 传 感 锅 融合 的 另 一 个 应 用 是 由 内 而 外 和 由 
外 而 内 跟 踩 的 结合 ， 即 移动 传感器 和 固定 传 感 需 的 
结合 。 即 使 目标 对 象 和 移动 传感器 同时 移动 ， 同 时 
使 用 这 两 种 传 感 融 也 可 以 恢复 固定 传感器 外 部 坐标 
系 中 的 移动 传 感 希 观测 到 的 目标 对 象 的 位 姿 。 固 定 
传 感 硕 测定 移动 传 感 锅 系统 的 运动 并 将 结果 与 移动 
传感器 确定 的 目标 对 象 运 动 联 系 起 来 。 这 种 配置 其 
至 允许 跟 踩 系统 “环顾 角落 ”并 跟踪 固定 传 感 硕 遮 ”图 3.27 PointGrey #12 (model 3 1394b) 





挡 的 目标 对 象 。 是 一 台 全 方位 成 像 的 多 摄像 头 
例如 ，Auer 和 Pinz [1999] 讨论 了 磁 传 感 和 红外 设备 。 包 含 6 个 摄像 头 ， 协 作 
传 感 的 融合 。Foxlin 等 人 [2004] 融合 了 固定 摄像 机 、 进行 360” 视 场 角 成 像 


头 戴 摄像 机 以 及 IMU. Klein 和 Drummond[2004] fa 

合 了 固定 红外 摄像 机 和 平板 电脑 上 的 普通 摄像 头 。 协 作 融 合 可 以 扩展 到 两 个 或 者 更 多 的 互相 
跟踪 的 移动 跟踪 系统 (JILE 3.28 ) [Ledermann et al. 2002]。 最 近 Yii 等 人 [2012] 提出 了 固定 
Kinect 和 多 个 移动 手机 的 联合 跟踪 。 
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图 3.28 a) 环顾 角落 的 跟踪 。 摄 像 机 Ci 跟踪 对 象 A 和 B， 而 摄像 机 C, 只 能 看 见 A。 
通过 融合 所 有 得 到 的 跟踪 信息 可 以 确定 B 相对 于 C 的 位 姿 。b) 左边 的 标志 点 
的 表面 没有 朝 回 摄像 机 ， 因 此 不 能 通过 显示 的 图 像 跟踪 。 但 是 ， 在 第 二 台 摄 像 
机 的 帮助 下 ， 增 强 的 物体 〈 蓝 色 立 方块 ) 可 以 被 成 功 地 放置 在 标志 点 位 置 〈 由 
Florian Ledermann 提供 ， 见 彩 插 ) 


3.8 小结 


在 本 章 中 ， 我 们 主要 根据 底层 传 感 需 的 物理 原理 综述 了 跟踪 技术 。 我 们 讨论 了 跟踪 技术 
重要 的 分 类 标准 ， 包 括 物 理 原 理 、 自 由 度 及 时 空 特征 。 这 些 特征 决定 了 尺寸 、 移 动 性 、 价 格 
以 及 跟 踊 系统 性 能 。 固 定 系 统 不 需要 考虑 重量 或 功 耗 约束 ， 能 够 实现 永久 性 的 部 署 。 但 是 它 
们 不 支持 用 户 漫游 ， 不 适用 于 增强 现实 。GPS 或 IMU 等 移动 传感器 广泛 地 应 用 于 移动 平台 
但 是 其 性 能 不 足以 满足 增强 现实 的 要 求 。 如 果 具 有 满足 计算 机 视觉 算法 的 计算 性 能 ， 基 于 数 
码 摄像 机 的 光学 跟踪 是 增强 现实 最 有 前 途 的 技术 。 另 外 ， 通 过 传感器 融合 组 合 光 学 和 非 光 学 
传感器 可 以 极 大 地 增强 移动 跟踪 的 鲁 棒 性 和 通用 性 。 在 下 一 章 中 ， 我们 会 在 更 多 的 细节 上 回 
顾 和 探索 与 光学 跟踪 方法 最 相关 的 计算 机 视觉 技术 。 
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增强 现实 中 的 计算 机 视觉 





本 章 介绍 增强 现实 中 使 用 的 计算 机 视觉 算法 ， 特 别 是 光学 跟踪 和 场景 重建 ， 但 是 如 同 我 
们 将 在 后 面 的 章节 中 看 到 的 ， 本 章 讨论 的 一 些 概念 对 于 其 他 的 增强 现实 应 用 (包括 视觉 一 致 
性 、 交 互 、 创 作 、 寻 航 以 及 协作 等 ) 同样 非常 重要 。 用 于 增强 现实 的 计算 机 视觉 能 够 通过 摄 
像 机 传感器 的 图 像 让 增强 现实 系统 感知 并 理解 用 户 及 其 周围 的 环境 。 增 强 现 实 需要 能 够 实时 
运行 的 技术 一 一 本 章 所 介绍 的 计算 机 视觉 技术 也 体现 了 这 样 的 要 求 。 
与 第 3 章 中 所 讨论 的 跟踪 技术 类 似 ， 结 合 其 他 传 感 融 的 实时 计算 机 视觉 是 增强 现实 跟 
踪 注 册 成 功 的 一 个 关键 因素 。 光 学 跟踪 的 目的 是 确定 真实 世界 中 一 个 物体 对 象 相 对 于 摄像 
机 的 位 姿 ， 这 需要 有 关 摄 像 机 以 及 图 像 处 理 算法 方面 的 知识 。 实 际 上 ， 简 洁 建 模 、 描 述 和 
解决 固有 的 概念 和 挑战 都 涉及 相当 多 的 数学 知识 (不 想 了 解 这 部 分 内 容 的 读者 可 以 略 过 黑 
框 部 分 )。 

虽然 我 们 试图 介绍 所 有 必要 的 数学 概念 ,但 是 不 太 可 能 细致 深入 地 讲解 它们 。 项 望 详细 
了 解 这 些 知识 的 读者 可 以 参阅 以 下 计算 机 视觉 文献 : Hartley 和 Zisserman [2003], Faugeras 
[1993], Szeliski [2010], Ma 等 人 [2003]， 以 及 Lepetit 和 Fua [2005] 有 关 三 维 跟 踪 的 综述 。 

本 章 旨 在 以 简洁 的 形式 描述 真实 世界 系统 的 必要 组 成 部 分 ， 将 通过 案例 研究 的 方法 逐步 
介绍 计算 机 视觉 技术 ， 以 讲求 实效 和 解决 问题 为 导向 的 方式 介绍 概念 。 新 介绍 的 概念 并 不 局 
限于 引入 它们 的 特定 案例 ， 而 是 具有 广泛 的 应 用 性 ， 使 得 读者 可 以 构建 与 增强 现实 相关 的 计 
算 机 视觉 技术 知识 储备 。 

© ER MERR AMIE: 这 个 简单 的 案例 介绍 了 基本 的 摄像 机 表示 、 基 于 轮廓 的 形状 
检测 、 单 应 位 姿 估 计 以 及 非 线 性 位 姿 优 化 。 

e 多 摄像 机 红外 跟踪 案例 研究 : 这 个 案例 研究 提供 了 一 个 多 视图 几何 的 速成 课程 。 
读者 可 以 学 习 到 多 摄像 机 图 像 中 2D-2D 点 间 的 对 应 、 对 极 几 何 、 三 角 测 量 和 绝对 
定 回 。 

e 自然 特征 检测 跟踪 案例 研究 : 这 个 案例 研究 介绍 了 图 像 中 兴趣 点 的 检测 、 描 述 符 的 
创建 和 匹配 以 及 利用 已 知 的 2D-3D 对 应 进行 鲁 棒 的 摄像 机 位 姿 解 算 (多 点 透视 位 姿 ， 
RANSAC ) 。 

o 增 量 跟踪 案例 研究 : 这 个 案例 研究 解释 了 如 何在 连续 帧 之 间 使 用 主动 搜索 方法 (KLT, 
ZNCC) 跟 踩 特征 ， 以 及 如 何 将 增 量 跟 踊 和 基于 检测 的 跟 踩 相 结 合 。 

e 同时 定位 与 地 图 构建 案例 研究 : 这 个 案例 研究 探索 基于 2D-2D 对 应 的 位 姿 计 算 (5 
点 姿态 ， 集 束 调 整 )。 我 们 也 会 探讨 并 行 跟 踊 与 地 图 构建 、 密 集 跟踪 与 地 图 构建 等 现 
代 技 术 。 

© 户外 跟踪 案例 研究 : 这 个 案例 研究 介绍 在 广 域 户外 环境 中 的 跟踪 技术 一 一 需要 可 扩 
展 特征 匹配 和 传 感 狠 融合 与 几何 先 验 帮 助 等 能 力 。 
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4.1 标志 点 跟踪 


自从 ARToolKit [Kato and Billinghurst 1999] 和 ARToolKitPlus [Wagner and Schmalstieg 
2007] 作为 开源 软件 发 布 以 来 ， 基 于 黑白 方块 基准 标志 点 的 跟 踊 变 得 十 分 普遍 。 标 志 点 跟踪 
不 需要 很 多 计算 资源 ， 即 使 使 用 性 能 较 差 的 摄像 机 也 能 够 提供 有 用 的 结果 。 它 的 吸引 力 来 自 
它 的 简单 易 用 : 通过 检测 已 标定 单 台 摄像 机 拍摄 图 像 中 平面 标志 点 的 四 个 角 点 ， 就 可 以 获得 
足够 的 信息 来 恢复 摄像 机 相对 于 标志 点 的 位 姿 。 

图 4.1 展示 了 标志 点 跟 踊 的 流程 ， 由 五 个 步骤 组 成 : 

1 ) 使 用 一 个 已 知 数学 表达 的 摄像 机 拍摄 一 幅 图 像 。 





图 4.1 跟踪 正方 形 基准 标志 点 的 流程 是 首先 通过 阅 值 分 割 图 像 ， 然 后 进行 四 边 形 拟 合 
及 位 姿 估 计 。 通 过 恢复 的 位 次 可 以 进行 增强 现实 泻 染 (由 Daniel Wagner 提供 ) 
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2 ) 通过 搜索 四 边 形 检测 标志 点 。 

3 ) 根据 单 应 和 矩阵 进行 位 姿 佑 计 。 

4) 通过 非 线性 重 投影 误差 最 小 化 优化 位 姿 。 

5 ) 使 用 恢复 的 摄像 机 位 次 进行 增强 现实 泻 染 〈 见 第 6 章 )。 
下 面 对 每 一 个 步骤 进行 介绍 。 


4.1.1 摄像 机 表示 


在 计算 机 图 形 学 和 计算 机 视觉 中 的 标准 相机 模型 是 针 孔 相机 ， 为 普通 物理 相机 的 抽象 。 
针 孔 相机 描述 了 物体 空间 中 一 个 3D 点 q 到 图 像 空间 中 一 个 2D 点 p 的 透视 投影 ( 见 图 4.2 )。 
透视 投影 通常 由 投影 中 心 c、 像 平面 II 和 一 个 主 点 e 定义， 其 中 投影 中 心 是 所 有 3D 点 投影 
为 2D 点 必须 通过 的 一 点 ， 主 点 c ET 是 c 到 TI 的 法 线 投影 。 通 过 c 和 wc' 的 直线 称 作 光 轴 ， 
从 c 到 c' 的 距离 称 为 焦距 f。 在 齐 次 坐标 系 中 ,我 们 可 以 将 透视 投影 表达 为 一 个 3 x 4 WE 


M: 
p a 
u 
dy 
Ae a, (4.1) 





图 4.2 针 孔 相机 模型 广泛 应 用 于 计算 机 图 形 学 和 计算 机 视觉 中 。 在 男 外 一 种 表示 方法 
中 ， 投 影 中 心 c 相对 于 3D 点 q 可 能 位 于 像 平 面 的 同一 侧 ， 强 调 了 相机 暗箱 一 侧 
上 实际 的 针 孔 关系 。 在 数学 上 ， 两 种 表示 方法 没有 区 别 , 但 是 视线 方向 和 相机 
及 像 平 面 坐标 系 会 发 生变 化 。 本 图 假设 位 于 e 的 相机 看 向 左 侧 ， 与 相机 坐标 系 
的 z 轴 负 方 同 一 致 


由 于 与 一 个 非 零 比 例 因子 相 乘 会 得 到 一 个 等 价 的 相机 矩阵， 因此 M 有 11 个 自由 度 
(11DOF)， 比 矩阵 元 素 的 数量 少 一 个 。 透 视 投影 依赖 于 内 部 和 外 部 相机 参数 。 
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本 章 假 设 使 用 一 个 KK 已 知 的 已 标定 相机 。 所 有 关于 标定 和 透镜 畸变 的 问 


中 进行 更 为 细致 深入 的 讨论 。 
4.1.2 标志 点 检测 


我 们 假设 输入 单个 标志 点 ， 所 采用 的 标志 点 为 晶 色 背景 下 带 有 给 定 宽度 黑 边 的 方块 。 在 
方块 内 部 没有 采用 复杂 的 二 维 条 形 码 ， 而 是 将 其 内 部 的 四 分 之 一 用 黑色 覆盖 ， 通 过 这 种 方式 
来 表示 唯一 的 方 问 (OLE 4.3 dis 


P4 





pi 


图 4.3 一 个 常用 的 标志 点 设计 采用 黑色 方块 围 住 二 维 条 形 码 。 本 例 中 只 在 一 个 角 和 覆盖 
黑色 来 确定 标志 点 的 方 问 


我 们 首先 将 一 幅 单 通道 输入 图 像 (通常 是 8 MAKE) 通过 立 值 操作 转化 为 黑白 二 值 图 
像 ( 见 图 4.4 )。 由 于 光照 是 变化 的 ， 选 择 一 个 合适 的 国 值 非 常 重要。 可 以 手动 或 目 动 地 确 
定 这 一 靖 值 ， 其 中 目 动 国 值 选择 可 以 通过 分 析 图 像 直 方 图 或 基于 图 像 强 度 对 数 的 梯度 浆 值 目 
适应 调整 [Naimark and Foxlin 2002] 完成 。 这 些 方法 甚至 可 以 处 理 某 些 极端 的 情况 ， 如 标志 
点 上 的 高 光 反 射 。 不 笠 的 是 ， 这 些 方法 的 计算 量 都 很 大 ， 一 种 更 简单 的 方法 是 确定 局 部 国人 
(例如 在 一 个 4x4 的 子 区 域内 )， 然 后 在 整 幅 图 像 中 做 线性 插值 操作 [Wagner et al. 2008a]。 





a) b) c) 


图 4.4 a) 二 值 化 前 的 图 像 .b) 二 值 化 后 的 图 像 。c) 检测 到 的 可 能 标志 点 的 封闭 轮廓 (由 
Daniel Wagner 提供 ) 


二 值 化 之 后 在 输入 图 像 中 搜索 封闭 的 轮廓 ( 见 图 4.4 )。 在 每 一 扫描 行 寻 找 边缘 ， 即 白色 
像素 后 面 的 黑色 像素 。 在 找到 这 样 的 边缘 后 继续 沿 着 四 邻 域 (上 上， 下 ， 左 ， 右 ) 的 方向 遍历 
这 个 边缘 ， 下 到 返回 初始 像素 或 者 到 达 图 像 边 界 。 如 果 可 以 假设 一 个 最 小 的 标志 点 高 度 ( 如 

10 个 像素 )， 那 么 只 需要 每 10 条 线 进行 一 次 扫描 来 确保 没有 错过 任何 一 个 标志 点 。 扫 描 线 检 
测 是 运算 量 最 大 的 操作 ， 所 以 通过 采用 这 一 方法 可 以 显著 提高 速度 。 

当 一 个 封闭 的 轮廓 足够 大 且 能 够 在 其 上 拟 合 一 个 四 边 形 时 ( 见 图 4.5 )， 这 个 轮廓 可 能 是 
一 个 标志 点 [Wagner et al. 2008a]。 在 检查 轮廓 的 边界 框 后 ， 和 对 于 四 
WEWE., 我 们 从 任意 一 点 a 开始 遍历 轮廓 ， 距 离 a 最 远 的 点 一 定 是 第 一 个 角 ， 用 pi 表示 
我 们 可 以 求 得 轮廓 的 中 心 m， 角 点 pz, ps 一 定位 于 过 pi A m 的 对 角 线 dim 的 两 侧 。 Ps “ae 
位 于 过 p, 和 p, 的 对 角 线 d,, 左 侧 距 离 pi 最 远 的 点 。 通 过 对 每 一 条 边 重 复 搜索 最 远 点 这 一 步 
又 来 确保 角 点 之 间 的 边 不 包括 任何 其 他 的 角 点 。 





pi 
图 4.5 将 四 边 形 拟 合 到 一 个 闭合 轮廓 的 三 个 步骤 


最 后 ， 我 们 可 以 通过 洛 着 对 角 线 采样 四 个 点 s =(p; + m)/2 来 确定 标志 点 的 方向 。 黑 色 
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4.1.3 单 应 位 姿 估 计 


平面 标志 点 的 四 个 角 点 是 第 见 的 所 有 已 知 点 g 位 于 一 个 平面 上 这 一 几何 约束 的 案例 。 
我 们 假设 标志 点 在 世界 坐标 系 中 定义 了 一 个 平面 M'g = 0， 标 志 点 角 点 的 坐标 分 别 为 
[0 0 0J", [1 0 0J", [1 1 0] 和 [0 10]'。 我们 可 以 把 一 个 三 维 点 q E II' 表示 为 一 个 齐 次 
的 二 维 点 q' = [qq,1] 。 从 一 个 平面 到 另外 一 个 平面 的 映射 在 数学 上 可 以 定义 为 由 一 个 
3x3 和 矩阵 再 定义 的 单 应 [Hartley and Zisserman 2003]. 
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图 4.6 单 应 关联 了 三 维 世 界 中 两 个 平面 上 的 点 
我 们 必须 从 A 中 恢复 出 用 于 增强 现实 泻 染 的 相机 位 姿 [RIt]， 具 体 解 释 如 下 。 
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图 4.7 为 了 从 单 应 中 计算 位 姿 ， 单 应 矩阵 的 旋转 组 件 需要 正 交 化 


4.1.4 位 姿 优 化 


并 不 总 是 可 以 直接 从 不 完全 的 点 对 应 中 获取 符合 要 求 精度 的 位 姿 估 计 ， 因 此 需要 通过 过 
代 最 小 化 重 投影 误差 来 优化 。 当 已 知 相机 位 姿 的 初始 估计 值 时 ， 我们 可 以 利用 已 知 的 图 像 位 
B p; 来 最 小 化 其 使 用 [RI 投影 的 三 维 点 gd 的 偏 移 。 使 用 齐 次 坐标 表示 (通过 给 第 三 个 元 素 
增加 0 将 p 转换 为 三 维 向 量 )， 我 们 可 以 最 小 化 误差 : 


arg min Zi(K[R |t]q,—p,)° (4.16) 
st 


XKL Be) 16 Fa] Fa aS — EA a a GE PRY Fr PA WE 77 OR ff [Boyd and Vandenberghe 
2004]。 在 更 抽象 的 形式 中 ， 我 们 可 以 将 投影 看 作 一 个 函数 f(x)=b, KERMA RM x (相机 的 位 
姿 ) 映射 到 数据 点 b (测度 ): 


arg min |f(x) — b| (4.17 ) 





4.2 多 摄像 机 红外 跟踪 


一 般 来 说 ， 真 实 世 界 中 的 已 知 点 并 不 会 像 上 一 节 中 跟踪 平面 标志 点 时 所 假设 的 那样 局 限 
在 一 个 平面 上 。 为 了 能 够 跟踪 任意 对 象 ， 我 们 需要 通用 的 姿态 估计 方法 。 为 此 ， 我们 利用 世 
界 坐 标 系 中 的 已 知 点 q; 及 其 在 图 像 坐标 系 中 的 投影 pi 之 间 的 2D-3D 对 应 关系 估计 摄像 机 的 

本 节 将 介绍 一 种 简单 的 红外 跟踪 系统 ， 可 以 用 于 跟踪 四 个 或 更 多 回 射 反射 球 所 组 成 
的 刚体 标志 物 (第 3 章 中 所 介绍 的 方法 )。 系 统 使 用 多 个 红外 摄像 机 的 由 外 向 内 看 设置 
[Dorfmiiller 1999]， 至 少 需 要 两 个 已 知 配置 的 摄像 机 ， 即 一 个 已 标定 的 立体 摄像 机 平台 。 通 
过 和 采用 这 一 方案 ， 源 自 多 个 视角 的 额外 输入 和 更 宽广 的 场景 覆盖 范围 能 够 提高 跟踪 的 质量 和 
工作 范围 。 在 实际 操作 中 通常 将 四 台 摄 像 机 安装 在 实验 室 的 四 个 角落 ， 使 用 两 台 以 上 的 摄像 
机 可 以 提高 系统 的 性 能 ,但 与 双 摄 像 机 立体 配置 并 没有 根本 的 不 同 。 

立体 摄像 机 跟踪 流程 包含 如 下 步骤 : 

1 ) 在 所 有 图 像 中 检测 斑 块 以 定位 刚体 标志 物 中 的 球体 。 

2 ) 利用 摄像 机 之 间 的 对 极 几 何 建立 斑 块 之 间 的 点 对 应 关系 。 

3) 利用 三 角 测 量 法 从 多 个 二 维 点 中 得 到 三 维 候选 点 。 

4) 匹配 三 维 候选 点 与 目标 点 。 

5) 利用 绝对 朝向 (如 Horn [1987] 和 Umeyama [1991] 所 述 ) 确定 目标 的 位 姿 。 
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4.2.1 斑 块 检测 


在 3.6.3 方 中 我 们 讨论 过 球形 标志 物 目 标的 原理 。 目 标 是 由 四 个 或 者 五 个 在 已 知 刚性 结 
构 上 和 者 畜 回 射 反射 箱 片 的 球体 组 成 ,摄像 机 捕获 球体 反射 回 的 红外 光 图 像 ， 每 一 个 球体 都 会 
在 图 像 的 相应 位 置 形成 高 强度 的 斑 块 。 

斑 块 检测 非 党 简单， 有 时 会 直接 在 摄像 机 硬件 中 完成 : 对 输入 的 二 进 制图 像 扫 描 其 中 包 
舍 日 色 像 素 的 连接 区 域 ， 在 排除 掉 太 细 或 者 太 长 的 区 域 后 计算 剩余 区 域 的 中 心 作为 候选 点 。 
因为 所 有 的 球体 都 有 相似 的 外 观 ， 所 以 必须 在 后 续 步 骤 中 解决 目标 识别 所 要 求 的 数据 关联 。 


4.2.2 建立 点 对 应 关系 


在 两 张 图 像 M, 和 M, 中 的 候选 二 维 点 可 以 利用 极 线 联 系 起 来 。 图 4.8 展示 了 两 个 摄像 
机 之 间 的 对 极 几 何 ， 其 中 c Ale 为 中 心 ，I 和 ;为 图 像 平面 。 三维 点 q 投影 到 p, € I, 
Ap, E Il,, c Me, 所 连 的 基线 (e) SARI, 交 于 极点 eai， 与 图 像 I, 交 于 极点 e,。 





图 4.8 ”外 极 面 由 两 个 摄像 机 中 心 和 一 个 三 维 空间 内 的 点 定义 


使 用 立体 摄像 机 进行 跟 踊 通常 需要 找 出 给 定 的 点 q 在 两 幅 图 像 之 间 的 对 应 关系 。 这 就 意 
味 痢 我 们 知道 q 的 一 个 二 维 投影 点 pb E 开 ,， 但 不 知道 q 在 哪里 ， 因 此 需要 在 N, 中 找到 p, 
氮 来 定位 qo RAGE pı, 一 定 在 通过 极点 e 的 极 线 1 上 。 
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为 了 在 TL, PRE q 的 投影 点 p,， 我 们 沿 着 极 线 1 搜 索 与 pi 处 观察 场景 相对 应 的 兴趣 
点 。 在 M, 中 比 装 值 更 接近 1 的 所 有 候选 点 都 会 被 用 来 做 三 角 测 量 。 理 想 情况 下 ，IL: 中 只 有 
一 个 候选 点 可 以 满足 此 要 求 。 在 匹配 中 一 个 有 用 的 验证 方法 是 计算 第 一 台 摄 像 机 到 第 二 人 台 摄 
像 机 的 极 线 ， 反 之 亦 然 ， 并 且 仅 保 留 在 两 个 方向 上 一 致 的 关联 。 在 无 法 找到 唯一 的 匹配 时 ， 
需要 通过 目标 的 结构 确定 正确 的 数据 关联 。 无 论 如 何 我 们 都 需要 首先 计算 对 应 于 相关 二 维 点 
的 三 维 点 ， 这 一 技术 称 为 三 角 测量 法 。 我 们 从 仅 包 括 两 台 摄像 机 的 简单 三 角 测量 出 发 ,然后 
推广 到 使 用 三 人 台 或 更 多 台 摄 像 机 的 情况 。 


4.2.3” 双 摄像 机 的 三 角 测量 


假设 我 们 已 经 找到 了 pi Apr MHARA c 和 ,的 两 条 射线 的 交点 便 能 计算 得 到 q。 由 
于 存在 各 种 各 样 的 标定 误差 ， 射 线 不 会 正好 相交 【〈 见 图 4.9 )。 对 于 两 台 摄 像 机 ， 我 们 可 以 沿 
着 射线 找到 两 个 距离 最 近 的 点 di 和 由， 然后 计算 它们 的 中 点 q [Schneider and Eberly 2003]. 








图 4.9 穿 过 摄像 机 中 心 “ 和 图 像 平面 坐标 点 pi 的 射线 在 空间 中 也 许 不 会 相交 。 我 们 可 
以 找 出 距离 最 近 的 连 线 的 中 避 
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在 应 用 非 线性 重 投影 误差 最 小 化 时 ， 对 两 个 摄像 机 的 三 角 测 量 法 是 非常 有 用 的 初始 化 步 
又 。 直 线 中 点 的 计算 是 一 个 几何 误差 最 小 化 问题 ， 取 决 于 场景 设置 ， 与 跟踪 质量 无 关 。 重 投 
影 误差 的 最 小 化 需要 更 加 复杂 的 方法 ( 见 4.3.5 节 )。 






424 ”两 台 以 上 摄像 机 的 三 角 测量 


我 们 现在 考虑 如 何 通 过 两 台 以 上 的 摄像 机 进行 三 角 测量 ， 在 这 种 情况 下 我 们 不 能 依赖 于 
中 点 计算 。 使 用 多 台 摄 像 机 的 一 个 解决 方案 是 用 DLT 方法 最 小 化 代数 误差 。 因 为 具有 T 了 一 
个 已 标定 的 多 摄像 机 配置 ， 所 以 我 们 可 以 获得 每 一 台 摄 像 机 的 内 标定 矩阵 以 及 相对 于 第 一 台 
摄像 机 所 定义 的 世界 坐标 系 下 的 外 参 ， 从 而 可 以 计算 得 到 每 台 摄 像 机 的 投影 矩阵 M。 

与 通过 DLT 利用 单 应 矩阵 估计 位 姿 一 样 ， 该 方程 组 可 以 用 SVD 方法 [Szeliski 2010] 求 
解 ， 其 结果 是 对 应 最 小 奇异 值 的 奇异 向 量 。 在 一 个 刚体 对 象 上 使 用 这 种 方法 计算 三 个 或 者 更 
多 的 点 之 后 ， 目 标的 位 姿 就 能 够 通过 采用 绝对 朝向 的 变 体 ( 见 4.2.6 节 ) 计算 得 到 。 


4.2.5 包含 球体 标志 物 的 目标 匹配 


通过 三 角 测 量 法 获得 的 候选 点 d 必须 和 目标 点 匹配。 即使 用 了 对 极 几 何 约 束 ， 也 经 
常会 出 现 j i， 即 由 于 模糊 不 清 的 观测 造成 候选 点 的 数量 多 于 目标 点 的 数量 。 在 某 些 图 像 
中 ， 由 于 球体 的 遮挡 ， 其 至 会 出 现 一 些 虚假 的 候选 点 。 

候选 点 与 目标 点 之 间 的 关联 可 以 通过 已 知 几 何 结 构 的 目标 对 象 进行 求解 ， 任 意 两 点 之 
间 的 距离 和 任意 三 点 所 形成 的 三 角形 都 会 产生 一 个 唯一 的 特征 签名 。Pintaric 和 Kaufmann 
[2008] 给 出 了 设计 这 种 标志 物 的 最 佳 方 法 。 

我 们 从 i 个 候选 点 中 选择 7 个 点 的 所 有 排列 并 计算 其 特征 签名 。 然 后 将 其 与 目标 特征 签 


名 进行 比较 ， 误 差 超 过 冰 值 的 排列 会 被 排除 并 在 剩余 的 排列 中 选择 误差 最 小 的 排列 。 


4.2.6 绝对 朝向 


在 关联 候选 点 之 后 可 以 得 到 两 组 对 应 点 一 一 观测 点 q; 和 目标 点 rm。 后 者 在 参考 坐标 系 中 
指定 ,我 们 希望 计算 观测 目标 相对 于 参考 坐标 系 的 位 姿 [RIt]。 

可 以 利用 Horn[1987] 所 述 的 方法 计算 绝对 方位 。 这 至 少 需要 三 个 点 ， 可 以 使 用 三 点 的 
中 心 来 确定 从 参考 坐标 系 到 测量 坐标 系 之 间 的 平移 。 旋 转 的 计算 分 为 两 步 : 首先 ， 我们 定义 
一 个 由 测量 坐标 系 到 q; 定义 的 中 间 坐 标 系 的 旋转 ; Wha, Sor, 做 同样 的 操作 。 最 后 把 两 个 
旋转 矩阵 连接 到 一 起 得 到 R, 






由 于 实际 的 测量 可 能 并 不 精确 ， 因 此 在 考虑 所 有 测量 的 情况 时 ， 该 方法 必须 利用 最 小 二 
乘法 进行 优化 。 

现在 我 们 已 经 得 到 了 单个 目标 的 位 姿 [RIt] 并 且 可 以 将 其 用 于 增强 现实 泻 染 。 只 要 多 个 
目标 对 象 的 特征 签名 之 间 的 差异 足以 用 于 识别 ， 系 统 便 可 以 同时 处 理 多 个 对 象 。 


43 自然 特征 检测 跟踪 


在 前 两 个 案例 中 我 们 使 用 了 人 工 标志 物 ， 这 些 方法 运行 良好 且 不 需要 太 大 的 计算 量 。 但 
在 大 多 数 的 应 用 中 ， 我 们 都 希望 能 够 避免 人 工 标志 物 引 入 的 视觉 杂乱 。 我 们 可 以 利用 跟踪 图 
像 的 自然 特征 来 确定 摄像 机 的 位 姿 ， 从 而 无 须 在 环境 中 安装 标志 物 。 与 先 建立 跟踪 的 数学 模 
型 ， 然 后 通过 将 物理 标志 物 放 入 物理 环境 进行 模型 匹配 不 同 ， 目 然 特征 跟 踊 采 用 了 相反 的 方 
法 : 首先 通过 扫描 物理 环境 重建 一 个 合适 的 数学 模型 ,然后 在 运行 时 将 所 跟踪 模型 匹配 到 报 
像 机 的 拍摄 画面 中 。 

本 节 研 究 使 用 单 台 摄 像 机 的 单 目 跟踪 。 现 在 广泛 使 用 的 移动 设备 上 都 内 置 了 摄像 机 ， 使 其 
成 为 移动 增强 现实 的 首选 硬件 。 当 然 ， 立 体 摄像 机 或 多 摄像 机 也 可 以 用 于 目 然 特征 跟踪 。 然 而 ， 
使 用 多 台 摄 像 机 会 增加 硬件 开销 和 计算 需求 ， 同 时 只 有 少数 的 移动 设备 带 有 多 人 台 摄 像 机 。 
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只 有 单 台 摄像 机 的 限制 意味 着 跟踪 目标 是 找 出 摄像 机 拍摄 图 像 中 的 二 维 点 和 世界 中 已 知 
的 三 维 点 之 间 的 对 应 关系 。 这 种 对 应 关系 可 以 是 稠密 的 或 稀疏 的 。 稠 密 匹配 意味 着 我 们 希望 
找到 图 像 中 每 一 个 像素 的 对 应 关系 ， 而 稀 朴 匹配 则 要 求 我 们 去 寻找 为 数 不 多 但 足以 使 用 的 显 
著 兴 趣 点 。 

多 年 前 以 来 ， 黎 芷 兴趣 点 匹配 的 方法 受到 更 多 研究 者 的 关注 ， 具 体 原 因 如 下 : 第 一 ， 包 
含 稀 疏 兴 趣 点 的 跟踪 模型 更 容易 创建 ， 其 原因 在 于 只 需要 生成 一 些 兴 趣 点 的 数学 表示 即 可 ， 
而 物理 对 象 的 其 余部 分 可 以 忽略 ， 所 得 到 的 跟踪 模型 更 加 紧 姿 ， 易 于 高 效 存 储 和 匹配 处 理 。 
第 二 ， 对 稀 玻 兴 趣 点 的 处 理 是 独立 进行 的 ， 即 使 由 于 遗 挡 或 者 亮度 改变 导致 特定 的 兴趣 点 丢 
失 ， 跟 踪 算 法 本 身 也 不 会 受到 严重 的 干扰 。 第 三 ， 兴 趣 点 的 离散 特性 提供 了 对 杂乱 背景 的 容 
和 妨 度 。 只 需要 有 足够 数量 的 正确 匹配 点 ， 一 些 错误 的 匹配 可 以 作为 外 点 移 除 ， 从 而 不 会 影响 
姿态 估计 。 

与 黎 疏 匹配 相 比 ， 笛 密 匹 配 的 一 个 突出 优点 就 是 能 更 好 地 处 理 极 病情 况 ， 例 如 缺少 纹 
理 、 重 复 结构 和 金属 等 高 反射 表面 的 物体 对 象 用 稠密 匹配 的 方法 能 够 更 加 和 鲁 棒 地 解决 。 对 般 
密 匹 配 中 稠密 图 像 点 的 处 理 虽然 会 增加 计算 开销 ,但 许多 元 余 点 的 匹配 能 够 更 好 地 克服 由 于 
较 差 光照 条 件 引 起 的 噪声 。 最 近 的 发 展 又 重新 点 燃 了 对 半 稠 密 或 者 稠密 匹配 研究 的 兴趣 ， 在 
本 章 后 续 讨论 SLAM 方法 的 章节 会 重新 回 到 这 个 主题 ， 在 此 我 们 仅 考虑 稀 朴 匹配 。 

具体 来 说 ， 我 们 首先 介绍 通过 检测 跟踪 的 方法 ， 在 这 种 方法 中 相机 位 姿 是 通过 匹配 新 的 
每 帧 中 的 兴趣 点 来 确定 的 ， 不 依赖 于 从 先前 帧 收集 的 先 验 信息 。 兴 趣 点 用 描述 符 来 表示 ， 描 
述 符 指 的 是 为 了 快速 可 靠 匹 配 而 设计 的 数据 结构 。 创 建 描 述 符 的 目的 是 在 新 的 摄像 机 图 像 中 
找到 兴趣 点 并 与 跟踪 模型 中 的 兴趣 点 进行 匹配 。 

该 方法 简单 明了 并 且 不 需要 任何 关于 摄像 机 运动 的 假设 。 假 如 无 法 确定 某 一 帧 中 相机 的 
姿态 〈 例 如 用 户 无 意 遮挡 了 相机 )， 这 并 不 会 影响 到 下 一 帧 的 跟踪 。 与 利用 先 验 信息 进行 跟 
蹊 相 比 ， 因 为 不 需要 存储 任何 历史 记录 ， 通 过 检测 进行 跟踪 更 加 易于 实现 。 利 用 先 验 信息 进 
行 跟踪 将 会 在 4.4 节 中 进行 介绍 。 

通过 检测 稀 朴 兴趣 点 进行 跟踪 的 流程 通常 包含 五 个 步骤 : 

1 ) 检测 兴趣 点 。 

2) 创建 描述 符 。 

3 ) 匹配 摘 述 符 。 

4) 多 点 透视 摄像 机 位 姿 确定 。 

5) 鲁 棒 位 姿 估 计 。 

在 下 面 的 章节 中 将 会 详细 讨论 每 一 个 步骤 。 需 要 注意 的 是 ， 最 后 两 个 步骤 (多 点 透视 摄 
像 机 位 姿 确 定 和 和 鲁 棒 位 姿 估 计 ) 通常 一 起 执行 ， 在 这 里 我 们 分 开 讨 论 是 为 了 便于 理解 。 

在 开始 进行 跟踪 流程 时 需要 从 摄像 机 中 捕获 新 的 一 帧 图 ， 然 后 应 用 兴趣 点 检测 需 检 测 用 
于 匹配 的 候选 点 。 对 于 每 个 候选 点 创建 特征 描述 符 并 与 跟踪 模型 数据 库 中 的 描述 符 进 行 匹 
配 。 每 一 对 匹配 都 会 生成 一 个 二 维 到 三 维 的 对 应 关系 ， 然 后 将 其 输入 到 使 用 多 点 透视 算法 的 
位 姿 估 计 毁 中。 如果 有 足够 数量 的 匹配 则 位 姿 估 计 问 题 是 超 定 的 。 然 而 ， 有 时 不 正确 的 匹配 
会 导致 外 点 数量 过 多 。 在 这 种 情况 下 ， 就 必须 使 用 和 鲁 棒 的 位 姿 估 计 技 术 来 抑制 外 点 的 影响 。 


43.1 兴趣 点 检测 
对 于 好 的 “兴趣 点 ”或 “特征 ”应 该 是 什么 样 的 问题 ， 研 究 人 员 已 经 投入 了 很 大 的 努力 
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ERR. Shi 和 Tomasi [1994] 从 实用 主义 的 角度 认为 : 正确 的 特征 应 该 是 能 够 可 靠 匹 配 的 。 
在 实际 操作 中 ， 这 意味 着 兴趣 点 周围 的 区 域 在 视觉 上 应 该 有 很 大 不 同 。 兴 趣 点 需要 具有 充足 
的 纹理 ， 在 小 的 局 部 邻 域 中 具有 高 对 比 度 的 强度 变化 ， 以 及 可 靠 的 辨识 结构 ， 比 如 角 点 、T 
形 节 点 或 圆 斑 。 

一 些 额外 的 期 望 属 性 会 考虑 更 多 的 全 局 图 像 信 息 ， 因 此 很 少 用 作 兴 趣 点 检测 器 。 例 如 ， 
在 理想 情况 下 兴趣 点 不 应 该 是 重复 结构 的 一 部 分 ， 从 而 不 易 和 场景 中 其 他 的 兴趣 点 混淆 。 此 
外 ， 兴 趣 点 应 该 相对 均匀 地 分 布 在 整 幅 图 像 中 。 

兴趣 点 的 选择 应 该 是 可 重复 的 ， 即 无 论 视 点 和 光照 条 件 等 观测 参数 如 何 变化 ， 检 测算 法 
都 应 该 能 选择 到 同样 的 兴趣 点 。 此 外 ， 点 检测 算法 应 该 对 旋转 、 缩 放 、 透 视 变 换 以 及 光照 变 
化 具有 重 棒 性 。 检 测 到 的 点 不 应 该 过 于 稀 朴 (为 了 计算 出 可 靠 的 结果 ) 或 者 过 于 稠密 (为 了 
系统 能 够 实时 处 理 计 算 )。 

现在 有 多 种 方法 能 够 满足 某 些 或 大 部 分 上 述 要 求 。 为 了 深入 评价 不 同 的 兴趣 点 检测 器 ， 
可 参见 Mikolajczyk 和 Schmid [2004] 或 Gauglitz [2011] 等 的 工作 ， 我 们 首先 回顾 经 典 的 
Harris 角 点 ， 然 后 介绍 基于 高 斯 差分 和 FAST 算法 的 兴趣 点 。 

1. Harris 角 点 

假定 图 像 具有 两 个 维度 ， 检 测 一 个 点 意味 着 在 水 平和 垂直 方向 都 必须 具有 强 梯度 。 因 
此 ， 合 适 的 兴趣 点 形状 通常 是 圆 形 的 斑点 或 角 点 。Harris 检测 器 [Harris and Stephens 1988] 
利用 图 像 的 目 
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2. 高 斯 差分 
由 于 不 具有 尺度 不 变性 ，Harris 角 点 检测 不 太 适用 于 相机 沿 着 观察 视点 平移 的 情况 。 作 
为 SIFT 工作 的 一 部 分 , Lowe[2004] 提出 利用 高 斯 差分 (DOG) 滤波 器 检测 图 像 的 局 部 极 值 ， 
通过 尺度 空间 上 的 操作 获得 图 像 金字 塔 。 





Rosten 和 Drummond [2006] 提出 了 一 种 加 速 的 检测 需 一 一 FAST (加 速 分 割 测试 特征 ， 
Features from Accelerated Segment Test)。 这 种 算法 计算 速度 快 ， 非 常 适合 于 实时 视频 处 理 ， 
尤其 是 移动 增强 现实 等 计算 资源 有 限 的 情况 。FAST 使 用 了 以 候选 点 为 中 心 选取 一 个 离散 
( 见 图 4.10 )， 假 如 离散 圆 中 超过 四 分 之 三 的 连续 缴 线 上 的 像素 与 中 心 像素 相 比 对 比 度 很 
高 ， 那 么 该 点 就 被 定义 为 角 点 。FAST 有 多 种 变 体 ， 依 据 其 弧 线 长 度 所 占 的 像素 数 分 别 命名 
为 : FAST9、FAST10、FASTI1 和 FAST12。 在 选择 连续 像素 数 N 和 对 比 度 靖 值 d 之 间 需 要 
折 中 ， 如 果 检 测 到 的 角 点 数量 过 多 会 导致 特征 缺少 重复 性 ， 而 我 们 的 目标 是 使 计算 尽 可 能 简 
单 高 效 。FAST 特征 检测 器 的 缺点 是 对 噪声 和 运动 模糊 不 够 鲁 棒 ， 很 容易 丢失 特征 。 图 4.10c 
所 示 的 高 速 测试 方法 会 导致 检测 到 的 多 个 特征 互相 邻近 。 





图 4.10 FAST 在 圆 环 上 搜索 连续 的 、 比 中 心 点 亮 或 暗 的 像素 序列 。 通 过 只 检测 上 下 左 
A (Ale Aras) 四 个 点 可 以 加 快 检测 速度 。 通 常 使 用 的 是 基于 机 器 学 习 和 预 编 
译 决 策 树 的 改进 算法 ， 在 弧 线 长 度 小 于 12 个 像素 时 具有 更 好 的 泛 化 性 能 (由 
Gerhard Reitmayr 提供 ) 


Rosten 和 Drummond[2006] 提出 了 一 个 简单 高 速 测试 方法 的 改进 算法 ， 利 用 机 瑚 学 习 方 
法 创建 一 棵 决策 树 用 于 确定 弧 线 上 像素 的 测试 顺序 ， 其 目标 是 尽 可 能 早 地 退出 测试 。 这 个 算 
法 的 机 器 学 习 版 本 应 用 十 分 普遍 ， 特 别 是 当 设 定 的 弧 线 长 度 小 于 12 时 。 在 没有 使 用 机 器 学 
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JWE, HAMKA 12 个 像素 的 版 本 (FAST12 ) 。 





4.3.2 创建 描述 符 


选 定 兴 趣 点 之 后 ， 需 要 计算 描述 符 ， 即 将 兴趣 点 与 跟踪 模型 或 其 他 图 像 进行 匹配 的 一 种 
合适 的 数据 结构 。 在 理想 情况 下 ， 跟 踪 模 型 的 每 一 点 都 应 该 有 独一无二 的 描述 符 ， 并 且 与 视 
点 和 光照 条 件 无 关 。 一 个 好 的 描述 符 能 够 捕获 局 部 邻 域 的 纹理 ， 同 时 对 光照 、 尺 度 、 旋 转 和 
仿 射 变换 具有 不 变性 。 最 简单 的 描述 符 是 兴趣 点 周围 的 图 像 块 ， 但 是 因为 这 些 图 像 块 不 具有 
旋转 和 尺度 的 不 变性 ， 因 此 它们 大 多 用 于 增 量 跟踪 方法 CL 4.4 节 )。 

现在 我 们 讨论 最 和 用 的 稀 朴 兴趣 点 描述 符 ， 即 Lowe[Lowe 1999, 2004] [Skrypnyk and 
Lowe 2004] 提出 的 尺度 不 变 特征 变换 (SIFT)。 在 此 也 建议 读者 了 解 其 他 常用 方法 ， 例 如 
SURF[[Bay et al. 2006], BRIEF[Calonder et al. 2010] 以 及 Ferns[Ozuysal et al. 2007]。 一 些 
综述 和 描述 符 对 比 的 文献 给 出 了 很 好 的 概述 [Mikolajczyk and Schmid 2005][Moreels et al. 
Perona 2007][Gauglitz et al. 2011]. 

对 于 一 个 点 p = [x y], SIFT 从 DOG 检测 算 子 中 得 到 一 个 尺度 因子 mw。 对 以 p 为 中 心 
的 图 像 块 中 的 每 一 个 像素 计算 其 旋转 9 和 幅 值 g。 将 旋转 角度 插入 到 直方 图 中 ， 并 通过 g 和 
该 像素 与 p 之 间 的 高 斯 距离 进行 加 权 。 直 方 图 的 峰 选 为 旋转 0, 的 描述 符 LE 4.11 )。 接 下 
来 的 操作 与 x、y、o, 和 0, 有关 。 

图 像 块 被 细 分 为 玉 .x 天 ,的 网 络 ， 然 后 分 别 计算 具有 K 个 柱 形 条 的 加 权 取 向 直方 图 。 连 
接 K, x K, x K, 个 柱 形 条 组 成 的 特征 向 量 便 是 描述 符 ， 之 后 将 其 归 一 化 以 最 小 化 光照 变化 的 
影响 。 标 准 的 SIFT 描述 符 有 4x4x8= 128 维 。 





图 4.11 SIFT 确定 图 像 块 (图 a) 中 每 一 个 像素 (8 x 8 ) 的 梯度 向 量 ， 建 立 一 个 带 有 将 
累计 梯度 向 量 幅 度 与 梯度 朝向 相关 的 (8 位 ) 直方 图 的 描述 符 数 组 (2 x2)。 在 
本 例 中 ， 描 述 符 的 维度 为 2x2 x8= 32 
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Wagner 等 人 [2008b] 提出 了 SIFT 算法 的 一 个 变种 (Phony SIFT), 4X BFP SRA 
式 设 备 进 行 了 优化 。Phony SIFT 仅仅 利用 3x3x4=36 维 和 FAST (而 不 是 DOG) 进行 检 
测 。 因 为 FAST 不 需要 尺度 估计 ， 输 入 图 像 直接 通过 平均 下 采样 获得 金字 塔 而 不 需要 使 用 
卷 积 ， 并 且 FAST 单独 应 用 于 每 一 层 上 。 该 方法 在 检测 兴趣 点 时 有 效 地 减少 了 计算 成 本 ， 
但 是 会 产生 大 量 外 点 。 这 些 外 点 可 以 通过 几何 校 验 加 以 排除 ， 因 此 最 终 的 位 姿 估计 精度 并 
不 会 受到 影响 。 


4.3.3 ”匹配 描述 符 


给 定 图 像 中 检测 到 兴趣 点 的 描述 符 ， 我 们 必须 在 跟踪 模型 中 找到 与 其 匹配 的 兴趣 点 。 最 
简单 的 匹配 方法 是 计算 两 个 描述 符 之 间 的 欧 氏 距离 ， 对 于 给 定 的 图 像 描 述 符 ， 其 与 跟踪 模型 
中 的 描述 符 距离 越 小 则 匹配 越 好 。 互 相 匹 配 的 描述 符 应 该 是 独一无二 的 ， 如 果 最 小 距离 与 第 
二 小 距离 的 比值 大 于 阅 值 (通常 设 为 80%)， 则 对 应 的 兴趣 点 将 会 被 丢弃 。 

如 果 跟 踪 模 型 的 描述 符 数 量 太 多 ， 按 穷 举 搜索 进行 匹配 会 非常 耗 时 ， 此 时 需要 使 用 局 发 
式 搜索 结构 。 经 典 的 启发 式 搜索 方法 包括 k-d 树 。 可 以 在 对 数 时 间 上 进行 搜索 ， 但 这 样 做 可 
能 会 丢失 小 部 分 匹配 点 。 如 果 k-d 树 的 效率 不 够 高 ， 可 以 使 用 溢出 森林 [Wagner et al. 2008b] 
的 方法 搜索 多 个 溢出 树 ( 带 有 随机 维度 旋转 的 、 具 有 一 定 重 芭 的 k-d 树 ) 并 将 结果 组 合 起 来 。 

任何 近似 的 搜索 结构 都 可 能 导致 不 正确 的 匹配 结果 ,产生 影响 位 姿 计 算 的 外 点 ， 因 此 重 
棒 和 高 效 的 外 点 去 除非 常 重要 。 可 以 应 用 去 除外 点 的 级 联 技术 ， 从 代价 最 低廉 的 方法 开始 ， 
并 通过 代价 最 为 昂贵 的 技术 完成 。 

一 个 较为 简单 的 检测 方法 依赖 于 全 局 旋转 检查 。SIFT 等 依赖 方 问 直方 图 的 描述 符 已 经 
提供 了 兴趣 点 的 朝 回 。 因 此 检查 图 像 中 的 所 有 匹配 兴趣 点 是 否 与 跟踪 模型 具有 一 致 的 旋转 方 
fh] (WLP 4.12a) 是 很 容易 的 。 接 下 来 的 测试 是 任意 选择 两 对 对 应 的 特征 男 一 条 直线 ， 所 有 
其 余 的 特征 对 必须 位 于 直线 的 同一 侧 (图 4.12b)。 


/ N 





a) b) 
图 4.12 a) 通过 SIFT 描述 符 提 供 的 主 方向 ， 可 以 简单 地 检查 旋转 是 否 正 确 。 所 有 的 关 
键 点 必须 具有 同样 的 相对 旋转 。b) 直线 检查 对 应 的 特征 是 否 位 于 连接 两 个 随 
机 选择 特征 直线 的 一 侧 (由 Daniel Wagner 提供 ) 


43.4 n 点 透视 位 姿 


n 点 透视 (PnP, Perspective-n-Point) 问题 指 如 何 通过 X 组 二 维 到 三 维 (2D-3D) 的 对 应 
点 重建 已 标定 相机 的 6 自由 度 位 盗 ， 其中“n” 描 述 了 对 应 点 的 数量 。 考 虑 到 每 组 对 应 点 提 
供 两 个 约束 ， 因 此 至 少 需 要 三 组 2D-3D 对 应 点 才能 够 解决 6 目 由 度 匹配 问题 。 然 而 ， 在 仪 
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有 三 组 对 应 点 时 ，P3P 只 提供 了 四 组 不 明确 的 解 ， 还 需要 第 四 组 对 应 点 来 确定 唯一 解 。 














图 4.13 P3P 算法 需要 计算 摄像 机 中 心 ec 到 三 维 点 q 的 距离 d, 


4.3.5 ”和 鲁 棒 的 位 次 估计 


更 多 的 数据 点 有 利于 数值 优化 ， 但 是 更 大 的 输入 数据 集会 引入 更 多 的 外 点 ， 从 而 影响 结 
果 的 准确 性 。 我 们 希望 在 存在 较 多 数量 外 点 的 情况 下 找到 一 个 好 的 初始 化 方法 ， 然 后 通过 对 
结果 进行 迭代 来 获得 精确 的 结果 。 其 目标 是 从 杂乱 的 数据 点 集合 中 选取 所 有 内 点 的 子 集 。 

1. RANSAC 

随机 抽样 一 致 性 (RANSAC) [Fischler and Bolles 1981] 就 是 这 样 一 种 足够 鲁 棒 的 初始 化 
方法 。RANSAC 的 主要 思想 是 从 一 个 随机 选择 的 数据 子 集中 估计 模型 参数 x。 对 于 摄像 机 位 
姿 估 计 ， 由 于 仅 需 要 三 组 2D-3D 对 应 ， 我 们 通常 使 用 P3P 方法 。 根 据 利用 三 组 选 定点 计算 
的 摄像 机 位 姿 计 算 其 余 对 应 点 的 残 差 。 残 差 小 于 国 值 则 被 认为 是 内 点 。 如 果 内 点 与 外 点 的 比 
率 太 小 则 重复 这 个 过 程 。 只 有 找到 了 足够 多 的 内 点 或 者 达到 了 最 大 的 迭代 次 数 后 ,RANSAC 
才 会 终止 。 最 后 利用 迭代 得 到 的 所 有 内 点 重新 估计 模型 参数 x. 
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2. M 估计 

为 了 得 到 更 加 精确 的 结果 ， 位 姿 估 计 的 初始 结果 (本 文 指 用 RANSAC 所 得 到 的 结果 ) 
需要 进行 鲁 棒 的 迭代 优化 ， 这 一 过 程 类 似 于 4.1.4 节 中 所 述 的 内 容 。 为 此 我 们 可 以 使 用 M 估 
tt (“M” 代 表 “ 最 大 似 然 ”) [Triggs et al. 2000]。 它 的 基本 思想 是 使 用 另 一 个 最 小 化 函数 
p(x) b) (RFRA PAY L2 正则 |fx)- 对 ， 从 而 在 最 小 化 过 程 中 降低 产生 较 大 残 差 数据 点 的 
权重 。 一 个 常用 的 M 估计 是 Tukey 估计 (st (4.38 ))， 本质 上 是 一 个 抛物 线 函 数 与 常数 函数 
的 组 合 ( 见 图 4.14 )。 





图 4.14 K=1 的 Tukey 估计 






在 使 用 Tukey 估计 时 必须 注意 到 Tukey 估计 不 是 凹 消 数 ， 这 意味 着 优化 可 能 会 陷入 局 部 
最 小 值 。 此 外 ， 在 解 远离 极 值 点 时 该 函数 是 扁平 的 ， 因 此 不 能 使 用 梯度 计算 。 只 有 在 解 足够 
接近 全 局 最 小 值 或 者 一 个 合理 的 局 部 最 小 值 时 才 使 用 Tukey 估计 。 


44 WERE 


许多 增强 现实 跟踪 系统 使 用 通过 检测 进行 跟 踩 的 方法 ， 其 原因 在 于 其 简便 性 以 及 其 便于 
同时 处 理 外 点 识别 和 位 姿 估 计 一 一 候选 特征 中 的 大 多 数 外 点 会 在 鲁 棒 位 姿 估 计 中 被 排除 。 然 
而 这 种 方法 的 难度 不 应 该 被 低估 。 通 过 检测 进行 跟踪 对 于 用 到 方块 标志 点 的 应 用 场合 等 真正 
的 简单 跟踪 模型 非常 成 功 ， 在 这 种 情况 下 匹配 十 分 简单 。 将 匹配 推广 到 大 型 的 自然 特征 模型 
要 更 加 困难 ， 这 将 会 在 4.6 节 中 进行 讨论 。 

由 于 增强 现实 要 求实 时 更 新 速率 ， 所 以 摄像 机 位 姿 和 特征 点 到 图 像 的 投影 都 不 能 在 相 邻 
两 帧 之 间 剧 烈 变化 。 通 过 检测 进行 跟踪 的 方法 忽视 了 这 种 一 致 性 ， 寻 致 了 跟踪 问题 变 得 更 加 
困难 : 忽视 了 帧 与 帧 之 间 的 相关 性 不 仅 浪 费 了 珍贵 的 计算 资源 ， 而 且 跟 踪 系 统 也 可 能 会 遇 到 
使 用 孤立 的 单 张 图 像 很 难 解释 的 场景 。 通 常 这 样 的 场景 可 以 更 简单 地 通过 前 一 帧 的 信息 进行 
解释 。 

一 个 使 用 前 一 步 信 息 的 跟踪 系统 称 作 增 量 跟踪 或 者 递归 跟踪 。 如 果 上 一 次 跟踪 迭代 是 成 
功 的 ， 那 就 有 足够 的 理由 相信 我 们 能 够 再 次 成 功 地 利用 上 一 帧 中 内 点 的 位 置 定位 内 点 。 这 种 
方法 可 以 显著 改善 跟踪 的 两 个 步骤 : 

。 本 地 搜索 。 将 搜索 区 域 限制 到 前 一 位 置 周围 的 一 个 小 窗口 有 助 于 兴趣 点 提取 。 
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e 直接 匹配 。 匹 配 可 以 通过 简单 地 比较 兴趣 点 周围 图 像 块 和 目标 图 像 中 的 图 像 块 完 
成 ， 这 避免 了 创建 和 比较 描述 符 的 计算 资源 消耗 ， 尽 管 这 种 方法 只 适用 于 简单 的 
跟 踊 模型 和 小 的 摄像 机 运动 。 实 际 上 ， 增 量 跟 中 一 般 依赖 于 相机 位 姿 的 良好 先 验 
信息 。 
增 量 跟踪 需要 两 个 步骤 : 一 个 是 增 量 搜索 ， 另 一 个 是 兴趣 点 匹配 。 增 量 (主动 ) 搜索 在 
上 一 帧 中 兴趣 点 的 附近 进行 。 对 于 这 么 近 的 距离 ， 合 适 的 匹配 方法 经 常 基于 Kanade-Lucas- 
Tomasi (KLT) 技术 或 者 和 雪 归 一 化 交叉 相关 。 


4.4.1 主动 搜索 


使 用 运动 模型 从 上 一 个 已 知 位 姿 推 新 一 个 初始 的 相机 位 姿 称 作 主 动 搜索 。 零 阶 运 动 模型 
能 够 在 摄像 机 静止 时 做 出 预测 ， 而 一 阶 运动 模 型 提供 了 一 个 简单 但 是 有 效 的 预测 : 摄像 机 被 
假定 以 恒定 的 空间 和 角速度 持续 移动 ， 可 以 通过 上 一 帧 或 几 帧 的 差分 近似 得 到 。 如 果 能 够 从 
陀螺 仪 传 感 硕 中 获得 额外 的 加 速度 信息 ， 二 阶 运 动 模型 可 能 会 产生 更 好 的 结果 。 我 们 也 可 以 
应 用 加 速度 特性 的 某 些 假设 一 一 例如 一 台 安 装 在 大 型 车 辆 上 的 摄像 机 。 

在 最 简单 的 情况 下 ， 如 果 没 有 可 用 的 三 维 跟踪 模型 ， 可 以 仅 通 过 二 维 兴 趣 点 的 位 置 获 取 
运动 模型 ( 见 图 4.15a)。 在 这 种 情况 下 ， 运 动 可 以 直接 利用 特征 点 的 图 像 空间 平移 获得 。 
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b) 
图 4.15 a) 二 维 主动 搜索 ; b) 三 维 主 动 搜 索 


然而 在 可 以 获得 三 维 跟 踪 模 型 时 ， 对 应 的 三 维 运 动 模型 通常 可 以 给 出 更 好 的 结果 ( 见 
图 4.15b)。 通 过 预测 得 到 的 新 摄像 机 位 姿 可 以 用 于 将 对 应 于 上 一 帧 内 点 的 跟踪 模型 中 的 特 
征 点 重 投影 到 当前 帧 中 的 新 二 维 位置 。 如 果 运 动 模型 是 精确 的 ， 我 们 想 要 寻找 的 兴趣 点 很 
可 能 出 现在 这 些 二 维 位置 的 附近 。 因 此 ， 将 兴趣 点 的 搜索 范围 限制 在 二 维 位 置 周围 的 小 窗 
口 就 足够 了 。 

如 果 跟 踊 模 型 由 场景 的 几何 描述 组 成 ， 可 以 通过 从 预测 的 相机 位 次 合成 一 张 场景 图 像 获 
得 模板 图 像 。 这 样 的 通过 合成 进行 跟踪 的 方法 只 依赖 于 边缘 等 简单 的 几何 特征 [Drummond and 
Cipolla 2002]。 如 果 可 以 获得 纹理 模型 ， 通 过 GPU 可 以 有 效 地 生成 一 张 合成 图 像 [Reitmayr 
and Drummond 2006]. 


4.4.2 Kanade-Lucas-Tomasi 跟踪 


经 典 的 增 量 跟踪 方法 是 Kanade-Lucas-Tomasi ( KLT) 跟踪 器 [Lucas and Kanade 1981] 
[Tomasi and Kanade 1991] [Shi and Tomasi 1994] [Baker and Matthews 2004]， 该 方法 从 一 张 
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KLT 跟踪 旨 在 找到 使 一 个 模板 图 像 了 变换 为 输入 图 像 了 的 变形 w 的 参数 x。 这 个 变形 w 
经 常 被 局 限 为 仿 射 变 换 ， 这 足以 对 图 像 块 在 摄像 机 轻微 运动 后 的 变形 进行 建 模 。 对 于 这 样 小 
的 增 量 运动 ， 仿 射 变换 非常 类 似 于 透视 畸变 效应 ， 会 增加 一 定 的 计算 量 。 
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近期 一 项 可 以 替代 KLT 的 重要 发 展 集中 在 描述 符 域 [Crivellaro and Lepetit 2014]. iit 
这 种 新 方法 可 以 用 描述 图 像 局 部 的 新 局 部 摘 述 符 代 替 匹 配 中 的 图 像 强 度 。 描 述 符 域 显著 提高 
了 包含 许多 镜面 反射 等 复杂 条 件 下 的 匹配 性 能 ， 同 时 计算 效率 也 很 高 。 


44.3 零 归 一 化 交叉 相关 


使 用 光 流 搜索 一 个 特征 点 的 最 优 位 置 需要 求解 优化 问题 。 这 可 能 会 更 简单 一 些 〈 因 此 
也 更 快 一 些 )， 仅 扫描 最 佳 位置 的 整个 搜索 窗口 。 这 样 的 扫描 可 以 通过 一 个 鲁 棒 的 图 像 比较 
测量 方法 完成 ， 这 种 方法 对 两 幅 图 像 的 对 齐 程度 进行 打分 。 理 想 情 况 下 ， 这 样 的 测量 方法 
应 该 具有 图 像 强度 局 部 变化 的 不 变性 ， 这 种 变化 一 般 来 自 模板 图 像 和 输入 图 像 之 间 的 光照 
差别 。 

对 于 一 个 在 位 置 (xy) 周围 的 Vx 尺寸 的 图 像 块 零 归 一 化 交叉 相关 ( Zero-Normalized 
Cross-Correlation, ZNCC) 有 如 下 优点 。 典 型 的 图 像 块 尺寸 是 5x5 或 7x7。 
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使 用 ZNCC 的 主动 搜索 相 比 KLT WMA ERAS BA BOP AEB. WREE 

括 了 剧烈 的 旋转 或 缩放 ， 纯 粹 的 ZNCC 的 结果 可 能 不 理想 。 然 而 ， 主 动 搜索 中 的 运动 模 

也 能 用 于 对 图 像 块 进行 变形 。 我 们 计算 了 一 个 变形 后 的 模板 图 像 并 将 其 和 输入 图 像 进行 比 

较 。 如 果 ZNCC 是 足够 有 效 的 ， 则 变形 后 的 模板 图 像 和 输入 图 像 足 够 相似 。 在 KLT 中 ， 计 

算 的 变形 差 由 运动 模型 预先 决定 ， 与 优化 无 关 。 因 为 变形 只 表示 一 个 回 目标 更 进一步 的 中 间 

步 又， 所 以 通常 仿 射 变形 是 足够 的 (LE 4.16 )。 这 样 的 仿 射 变形 可 以 通过 双 线 性 差 值 重 采 
样 模板 图 像 迅 速 计算 得 到 。 





图 4.16 模板 图 像 中 的 一 块 (左上 ) 通过 运动 模型 估计 得 到 的 摄像 机 位 姿 进 行 仿 射 变 形 
(AE). 变形 后 的 图 像 块 和 当前 摄像 机 中 的 图 像 块 进行 比较 (由 Daniel Wagner 
供 ) 





4.4.4 ”分 层 搜 索 


即使 是 使 用 手持 摄像 机 以 30Hz 采集 的 分 辨 率 为 640 x 480 像素 的 中 等 质量 的 视频 流通 

也 会 包含 数 以 百 计 的 特征 ， 这 些 特征 通常 在 帧 与 帧 之 间 移 动 50 或 更 多 的 像素 。 朴 素 的 跟 

踪 需 要 很 大 的 搜索 窗口 ， 从 而 跟踪 的 计算 量 很 大 。 因 此 ， 有 必要 采用 分 层 的 方法 ， 通 过 不 断 
减少 幅度 的 步骤 确定 摄像 机 的 位 姿 。 

通常 使 用 一 个 简单 的 两 层 图 像 金 字 塔 ( 见 图 4.17) 就 足够 了 ， 通 过 对 输入 图 像 进 行 下 采 

样 可 以 将 其 分 辨 率 降 为 原始 图 像 的 四 分 之 一 [Klein and Murray 2007]。 在 这 一 分 辨 率 下 ， 只 
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有 一 小 部 分 强 特 征 (比如 20 ~ 30 个 特征 ) 可 以 通过 运动 模型 利用 预测 的 摄像 机 位 姿 跟踪 。 
与 之 相对 ， 搜 索 窗 口 会 很 大 一 一 比如 5 x5 像素 (对 应 于 原始 分 辨 率 上 的 20 x 20 像素 窗口 )。 
与 来 自 运动 模型 的 位 姿 相 比 ， 来 源 于 这 个 粗糙 跟踪 步骤 的 摄像 机 位 姿 会 被 改善 ， 但 是 还 不 够 
精确 。 即 使 这 样 ， 也 足够 在 完整 分 辨 率 上 完成 跟踪 的 初始 化 。 在 完整 分 辨 率 上 的 跟 蹊 利用 所 
有 的 特征 (例如 200 个 最 强 的 特征 )， 但 是 使 用 更 小 的 搜索 窗口 (例如 2 x2 像素 )。 在 移 除 外 
点 之 后 ， 可 以 使 用 非 线性 优化 操作 来 获得 最 终 的 摄像 机 位 姿 。 


CVN ia 
wale 





图 4.17 一 个 两 层 分 层 搜索 始 于 一 张 2x2 的 子 采样 图 像 ， 只 采用 少量 的 兴趣 点 获取 摄 
像 机 位 姿 的 初始 估计 。 之 后 在 完整 分 辨 率 上 考虑 所 有 的 兴趣 点 ， 但 使 用 更 小 的 
搜索 窗口 (由 Daniel Wagner 提供 ) 


445 ”联合 检测 与 跟踪 


除非 我 们 从 已 知 的 摄像 机 位 姿 出 发 ， 纯 粹 的 增 量 跟踪 不 能 被 初始 化 。 早 期 的 方法 采用 人 
工 初始 化 的 办 法 ， 但 现代 跟踪 系统 [Wagner et al. 2009] 结合 了 检测 跟踪 和 增 量 跟踪 方法 ( 见 
图 4.18 ) 。 

开始 






跟 踊 目标 已 检测 





跟 踊 目 标 
未 检测 
+ 识别 目标 类 型 跟 踩 目标 丢失 + 快速 
+ 检测 目标 + 对 于 模糊 、 光 照 变 化 鲁 棒 
+ 初始 化 相机 位 姿 + 对 于 倾斜 兽 棒 


图 4.18 ”跟踪 和 检测 是 互补 的 方法 。 在 成 功 的 检测 之 后 ， 目 标 被 增 量 地 跟踪 。 如 采 目 标 
丢失 ， 检 测 会 被 再 次 激活 


由 于 不 需要 满足 严格 的 帧 率 ， 检测 方 法 不 需要 先 验 的 位 姿 , 但 是 需要 一 定 的 计算 周 
期 。 检 测 可 以 通过 目标 识别 进行 拓展 ， 使 得 可 以 从 一 个 潜在 的 巨大 数据 集中 检索 到 正确 的 
跟 踊 模型 。 

增 量 跟踪 需要 先 验 的 位 姿 信 息 , 但 是 可 以 依赖 时 间 一 致 性 。 在 初始 化 阶段 ， 可 以 使 用 该 


方法 从 视频 流 中 提取 模板 图 像 ， 从 而 不 用 依赖 存储 的 跟 踊 模型 。 新 鲜 的 模板 图 像 反 映 了 光照 
等 当前 环境 的 情况 ,使 得 跟 躁 对 于 模糊 、 镜 面 反 刺 或 强烈 的 倾斜 等 恶劣 的 环境 具有 弹性 ( 见 
图 4.19 )。 
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图 4.19 图 中 展示 了 一 些 被 跟 踊 的 视频 序列 ， 和 直到 使 用 图 像 块 变形 的 增 量 跟 踊 在 最 右 
INFN TT ot. Hee AMA. UEP. RL. I BOR IR Pe (H 
Daniel Wagner 提供 ) 


45 同时 定位 与 地 图 构建 

到 现在 为 止 ， 我 们 都 假设 跟踪 开始 之 前 我 们 已 经 得 到 了 一 个 用 于 参考 的 跟踪 模型 ， 而 在 
无 模型 跟踪 的 情况 下 我 们 没有 这 样 的 一 个 跟踪 模型 。 最 简单 的 无 模型 跟踪 可 以 视 为 同时 定位 
与 地 图 构建 ( SLAM) 的 前 身 ， 有 时 也 称 为 视觉 里 程 计 [Nistér et al. 2004]。 概 括 地 讲 ， 视 觉 
里 程 计 指 的 是 从 任意 点 开始 对 摄像 机 的 6 自由 度 姿 态 进 行 连续 跟踪 的 方法 。 该 方法 源 自 移动 
机 大 人 领域 ,视觉 里 程 计 对 环境 进行 三 维 重 建 ， 但 所 得 的 结果 仅 用 于 增 量 跟 踊 。 一 个 基本 的 
视 沉 里程 计 流程 包含 以 下 步骤 : 

1 ) 在 第 一 帧 中 检测 兴趣 点 ， 如 利用 Harris 或 者 FAST 角 点 ( 见 4.3.1 节 ) 

2) 在 先前 的 帆 中 二 维 妃 踩 兴 趣 点 ， 如 利用 KLT( 见 4.4.2 F) 


TEME P Hg t+ PGE 107 


3 ) 利用 藤 套 在 RANSAC 循环 ( 见 4.3.5 47) 中 的 五 点 算法 ( 见 4.5.1 节 ) 确定 当前 帧 和 
先前 帧 对 应 特征 的 本 质 和 矩阵 。 

4 ) 从 本 质 和 矩阵 中 估计 摄像 机 的 增 量 位 姿 。 

5) 本 质 和 矩阵 只 能 确定 位 姿 中 的 平移 参数 的 尺度 变化 ， 而 尺度 必须 单独 估计 才能 保证 
它 在 所 有 跟踪 的 图 像 序列 中 保持 一 致 。 为 此 ， 使 用 三 角 测 量 法 〈 见 4.2.4 节 ) 对 同一 图 像 特 
征 在 随时 间 变 化 的 多 个 三 维 观测 点 进行 计算 ， 这 种 方法 也 称 为 基于 运动 的 结构 重建 (SFM, 
Structure From Motion). 

6) 转 入 下 一 帧 。 

除了 五 点 算法 之 外 的 其 他 算法 均 在 本 书 中 进行 了 介绍 ， 接 下 来 将 讨论 五 点 算法 。 


4.5.1 本 质 矩 阵 的 五 点 算法 


为 了 通过 二 维 点 的 对 应 确定 摄像 机 的 相对 运动 ，Nistér[2004] 算法 利用 五 组 对 应 点 计算 
本 质 和 矩阵 E。 由 于 E =t,R， 通 过 采用 SVD 把 EE 分 解 为 R 和 ft 就 可 以 计算 摄像 机 的 相对 位 
姿 [Rlt]。 两 台 摄 像 机 的 光 心 不 能 相同 (EP | > 0 )， 否 则 会 构成 一 个 隐 式 三 角 ，E 的 求解 成 
为 不 适 定 问题 。 为 此 ， 必 须 将 SLAM 系统 初始 化 为 独特 的 (向 两 边 或 者 向 前 )“ 旅 行 ”运动 ， 
不 能 让 摄像 机 单纯 地 旋转 。 
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如 果 对 Nistér 算法 望而却步 的 话 ， 也 可 以 选择 其 他 的 方法 ， 例 如 Li 和 Hartley[2006] 或 
者 Stewenius 等 人 [2006] 的 方法 。 


4.5.2 ”集束 调整 
如 前 文 所 述 的 朴素 视觉 里 程 计 随 着 时 间 的 增加 可 能 会 累积 深 移 误差 。 通 过 集束 调整 
[Triggs et al. 2000] 最 小 化 重 投 影 误差 可 以 解决 这 一 问题 。 对 于 标定 参数 为 K 的 摄像 机 ， 定义 
三 维 点 q 在 摄像 机 位 姿 X 时 拍摄 帧 中 的 投影 为 pi;。 我 们 希望 最 小 化 如 下 的 重 投 影 误差 p: 
arg min 》 > p(KX,q, 一 pt) (4.51) 


PR p 是 一 个 鲁 棒 的 估计 (如 Tukey htt), Pe 为 包含 三 个 元 素 的 齐 次 向 量 。 

正如 4.1.4 节 所 述 ， 这 个 问题 通常 用 高 斯 -牛顿 或 者 Levenberg-Marquardt 方法 进行 求 
解 。 但 是 问题 空间 很 快 会 变 得 过 于 庞大 ， 如 果 把 参数 按照 摄像 机 位 次 和 三 维 点 进行 分 类 则 可 
以 高 效 地 解决 ， 同 时 ， 计 算 局 限 在 一 定 的 空间 区 域 。 有 窗口 的 集束 调整 只 在 固定 数目 的 邻近 
帧 中 优化 ( 见 图 4.20 )。 
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4.20 有 窗口 的 集束 调整 只 优化 相 邻 摄像 机 的 位 姿 ， 减 少 了 计算 量 


对 于 非常 大 的 场景 ， 位 姿 图 优化 [Kummerle et al. 2011] 更 进一步 : 只 对 选取 关键 帧 的 摄 
像 机 位 姿 进行 优化 。 在 图 中 关键 帧 为 节点 ， 而 两 个 关键 帧 之 间 的 边缘 代表 两 者 观察 的 场景 公 
共 部 分 。 与 全 局 位 姿 优 化 不 同 ， 该 方法 只 考虑 沿 着 边缘 的 相对 位 姿 变化 。 


45.3 并行 跟踪 与 地 图 构建 
前 文 描述 的 朴素 视觉 里 程 计 算法 只 考虑 被 追踪 到 的 点 ， 如 果 一 个 点 在 移出 视线 后 又 被 
重新 检测 到 ， 朴 素 的 视 党 里程 计算 法 无 法 将 第 二 张 视图 与 第 一 张 视 图 联系 起 来 。 与 之 相对 ， 
SLAM 旨 在 利用 观测 点 与 场景 中 点 的 数据 一 致 性 创建 地 图 [Davison et al. 2007]。 遗 憾 的 是 ， 
这 样 的 地 图 会 随 着 摄像 机 探索 场景 的 过 程 快 速 增长 ， 很 快 全 局 的 集束 调整 计算 变 得 不 可 行 。 
并 行 跟踪 与 地 图 构建 (PTAM) [Klein and Murray 2007] 是 一 个 现代 方法 ， 将 跟踪 与 地 
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图 构建 分 离 ( 见 图 4.21). PTAM 让 二 者 在 并 行 线程 中 同时 执行 ， 但 允许 它们 有 不 同 的 更 
新 频率 。 


新 的 关键 帧 
LE ROT 





+ 估计 摄像 机 位 姿 地 图 更 新 + 扩展 地 图 
+ 针对 每 一 帧 + 改进 地 图 
+ 放 缓 更 新 频率 
图 4.21 ”并行 跟踪 与 地 图 构建 使 用 两 个 并 行 线程 ， 一 个 用 于 跟踪 ， 另 外 一 个 用 于 地 图 构 
建 ， 两 者 运行 速度 不 同 


跟踪 线程 以 全 帧 速率 (例如 30Hz) 工作 ,使 用 运动 模型 将 存储 在 地 图 中 的 点 投影 到 当前 
帧 中 并 搜索 对 应 关系 ， 人 然后 利用 这 些 对 应 关系 计算 摄像 机 位 姿 。 

建立 地 图 的 线程 以 较 慢 的 速度 运行 ， 每 一 次 迭代 需要 数秒 。 它 通过 关键 帧 〈( 即 视频 流 中 
代表 不 同 摄像 机 位 姿 的 帧 ) 耦合 到 跟踪 线程 。 如 果 存 在 所 有 其 他 关键 帧 的 最 小 基线 并 且 跟 踪 
质量 足以 获得 可 信 的 摄像 机 位 姿 ， 则 会 加 入 新 的 关键 帧 。 

获取 新 的 关键 帧 后 ， 地 图 构建 线程 通过 两 种 方式 扩展 地 图 。 第 一 ， 对 于 在 新 的 关键 帧 中 
找到 的 已 有 地 图 中 的 点 ， 使 用 新 的 观测 点 改进 三 角 测 量 值 。 第 二 ， 在 关键 帧 中 寻找 新 的 地 图 
点 并 添加 到 地 图 中 。 将 这 些 点 投影 到 邻近 关键 帧 中 以 获得 三 角 测 量 值 ， 然 后 使 用 集束 调整 在 
后 台 优 化 扩展 地 图 。 当 摄像 机 不 再 搜索 新 的 区 域 并 传送 新 的 关键 帧 时 ， 地 图 构建 线程 通过 使 
用 空闲 时 间 逐 渐 检 查 所 有 关键 帧 中 的 所 有 点 来 完善 地 图 ， 从 而 可 以 改善 位 置 估计 、 识 别 伪 数 
据 关 联 和 外 点 。 


454 ” 重 定 位 与 闭环 

有 两 个 不 同 的 问题 要 求 SLAM 中 的 数据 关联 一 致 ， 第 一 个 问题 是 重 定 位 ， 例 如 暂时 的 
遮挡 或 快速 的 移动 导致 该 点 丢失 从 而 需要 重新 跟踪 。 跟 踩 需 要 在 同一 个 地 图 坐标 系 下 重新 开 
始 ， 才 能 使 地 图 数据 有 意义 。 

第 二 个 问题 是 闭环 ， 指 的 是 识别 摄像 机 当前 访问 的 场景 是 否 为 已 构建 地 图 的 一 部 分 ， 从 
而 可 以 保证 地 图 中 的 点 不 会 被 重 构 两 次 。 在 数学 上 ， 这 个 问题 与 重 定位 类 似 ， 但 在 实践 中 这 
个 问题 会 带 来 截然 不 同 的 挑战 。 在 跟踪 工作 时 ， 闭 环 可 以 利用 已 有 的 摄像 机 位 姿 正确 信息 ， 
避免 错误 的 数据 关联 。 与 之 相对 ， 重 定位 在 跟踪 消失 时 调用 ， 因 此 必须 能 够 可 徘 地 搜索 整个 
模型 ， 跟 踊 失 败 后 用 户 可 能 会 移动 任意 距离 。 

基于 关键 帧 的 SLAM 将 特征 重新 投影 到 邻近 的 关键 帧 ， 从 而 隐 式 地 处 理财 环 。 这 一 重 
投影 不 能 无 限制 地 扩展 关键 帧 的 数量 ， 因 此 这 种 形式 的 闭环 只 适用 于 小 场景 。 

重 定位 可 以 通过 从 当前 帧 提取 兴趣 点 并 将 其 与 所 有 的 点 进行 比较 来 实现 。 而 基于 关键 帧 
的 SLAM 通常 使 用 关键 帧 中 获取 的 块 进行 模板 匹配 ， 从 而 避免 了 代价 昂 贯 的 SIFT 等 描述 符 
计算 。 但 随 着 地 图 尺寸 的 增加 ， 该 方法 不 能 很 好 地 扩展 。 

在 基于 关键 帧 的 SLAM 中 ， 一 个 第 用 的 重 定位 方法 是 对 整个 关键 帧 生成 一 个 代价 较 
小 的 描述 符 。 将 关键 帧 下 采样 为 一 张 小 的 (如 40 x 30 RA) 模糊 图 片 (SBI, Small Blurry 
Image) [Klein and Murray 2008]， 为 了 抑制 高 频 信息 将 其 高 度 模糊 ( 见 图 4.22 )。 由 于 关键 


帧 的 间距 足够 密集 ， 因 此 与 当前 摄像 机 图 像 进行 简单 的 ZNCC 比较 就 可 以 得 出 好 的 重 定位 
结果 。 一 且 识 别 出 足 够 相似 的 关键 帧 ， 就 可 以 利用 其 摄像 机 位 姿 搜索 当前 图 像 中 已 知 的 地 图 
点 并 重新 开始 跟踪 。 





图 4.22 MRA BN 640 x 480 的 源 图 像 重 新 采样 为 40 x 30 像素 后 计算 得 到 的 小 模糊 图 
像 ， 使 用 大 小 为 $ 个 像素 的 高 斯 核 进行 模糊 (由 Daniel Wagner 提供 ) 


对 于 大 的 工作 场景 ， 需 要 一 种 可 扩展 的 检测 方法 。 标 准 方法 是 计算 地 图 点 的 描述 符 并 使 
用 k-d 树 [Lowe 2004] 或 词汇 树 [Nistér and Stewenius 2006] 等 分 层 搜索 结构 ， 从 而 可 以 有 效 
地 搜索 非常 大 的 地 图 。 


4.5.5 ”稠密 地 图 构建 


PTAM 等 基于 兴趣 点 的 方法 依赖 稀 玖 点 云 ， 在 缺乏 纹理 的 区 域 不 能 正常 工作 。 对 一 幅 图 
像 中 所 有 的 点 进行 密集 跟 踊 可 以 纳入 更 多 的 信息 ， 因 此 对 条 件 差 的 图 像 更 有 容错 性 ， 但 是 不 
利之 处 在 于 密集 跟 踊 的 计算 量 很 大 。 

硬件 的 两 个 最 新 进展 使 实时 密集 跟 踊 成 为 可 能 并 具有 极 大 的 吸引 力 。 第 一 ，Microsoft 
Kinect 等 廉价 的 RGB-D 传 感 间 可 以 直接 测量 深度 ， 无须 通 过 软件 进行 点 三 角 测量 计算 。 第 
Z, GPU 可 以 用 来 做 大 量 的 并 行 数值 计算 ， 这 让 稠密 和 半 笛 密 地 图 构建 算法 得 以 复兴 ， 甚 
至 是 在 移动 计算 平台 上 的 计算 能 力 持 续 显 着 地 提升 更 进一步 助长 了 这 一 趋势 。 半 密集 的 
SLAM 技术 已 经 被 证 明 是 可 以 实时 运行 的 ， 不 需要 复杂 的 硬件 文 持 [Engel et al. 2014]。 

第 一 个 成 功利 用 新 便 件 做 密集 SLAM 的 方法 是 KinectFusion[Newcombe et al. 2011]。 该 
技术 的 概述 如 图 4.23 所 示 。KinectFusion 的 跟 踊 部 分 将 RGB-D FERRE IRIGY ORE BUR E f 
为 点 云 。 通 过 使 用 和 迭代 最 近 点 (ICP, Iterative Closest Point) 算法 [Arun et al. 1987] 将 当前 
诛 度 图 像 与 前 一 帧 深 度 图 像 进行 对 准 来 确定 摄像 机 位 姿 : 

1 ) 对 当前 深度 图 像 上 的 每 一 个 点 确定 其 在 先前 深度 图 中 的 最 近 点 。 使 用 有 限 差分 计算 
输入 数据 上 每 一 点 的 法 线 ， 然 后 利用 其 计算 点 到 面 的 距离 度量 以 确定 数据 关联 。 

2 ) 利用 这 些 点 之 间 的 关联 计算 最 小 化 残 差 的 刚性 变换 。 

3 ) 将 变换 应 用 到 所 有 的 点 中 。 

4) 重复 这 个 过 程 百 至 误差 足够 小 。 

KinectFusion 构建 地 图 部 分 将 场景 表示 为 一 个 内 部 存储 截断 的 符号 距离 函数 t(q) ( 见 图 
4.24) 的 郑 。 在 利用 跟踪 续 采 把 新 的 次 度数 据 转换 到 全 局 坐标 系 后 ， 借 助 辅助 卷 w 利用 滑动 
平均 ( 见 图 4.25 ) 把 上 集成 到 > 中 [Curless and Levoy 1996]。 
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ICP 摄像 机 跟踪 





原始 深度 图 像 






图 4.23 KincetFusion 利用 深度 传感器 实时 获取 场景 的 几何 估计 。 深 度 图 被 转换 成 点 云 
并 使 用 ICP 算法 进行 跟踪 。 通 过 将 新 的 深度 观测 值 融 入 卷 中 进行 重建 
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对 于 可 视 化 或 增强 现实 ， 利 用 GPU 光线 跟踪 可 以 从 v 中 提取 重建 场景 的 深度 图 。 
积分 是 随 着 时 间 进 行 的 ， 因 此 深度 图 不 会 受到 传感器 伪 影 的 影响 ， 可 用 于 在 下 一 帧 中 确定 
ICP. 

近期 的 研究 工作 探索 了 其 他 形式 的 稠密 SLAM，DTAMI[Newcombe et al. 2011b] 不 需要 
深度 传感器 就 可 以 直接 通过 RGB 图 像 计 算 稠 密 地 图 。RGB-D SLAM[Kerl et al. 2013] 是 基 


于 关键 帧 的 SLAM 方法 ， 使 用 RGB-D 图 像 而 不 仅仅 是 RGB 图 像 ， 并 且 可 以 较 少 的 计算 量 
在 CPU 上 运行 。LSD-SLAM[Engel et al. 2014] 探讨 了 半 笛 密 地 图 构建 一 一 在 稀疏 和 稠密 地 
图 构建 之 间 的 有 效 折 中 。 借 助 LSD-SLAM 可 以 通过 RGB 相机 序列 帧 的 小 基线 立体 匹配 获得 
深度 估计 ， 所 有 带 有 合适 深度 估计 的 像素 都 会 被 用 于 与 关键 帧 的 次 度 匹 配 。 


4.6 ”户外 跟踪 


我 们 到 目前 为 止 描述 的 跟踪 方法 主要 用 于 室内 应 用 。 当 然 ， 增 强 现 实 也 有 许多 如 旅游 导 
航 或 工程 检查 等 户外 应 用 案例 ， 需 要 在 户外 进行 跟 踊 。 户 外 跟踪 通常 比 室内 跟 踊 更 加 困难 ， 
其 原因 在 于 

e 移动 性 。 用 户 可 以 随意 去 任何 地 方 。 跟 中 需要 窗 盖 非常 宽广 的 领域 ,需要 在 智能 手 

机 等 移动 设备 上 运行 ， 这 些 移动 设 备 计 算 速 度 相 对 较 慢 且 存 储 空间 小 。 智 能 手机 上 
的 GPS 和 罗盘 等 微型 传 感 希 的 精度 较 差 ， 并 且 大 多 数 摄像 机 的 视 场 角 都 很 罕 。 无 线 
网 络 的 连接 是 不 可 预测 的 。 

e 环境 。 户 外 环境 中 的 许多 区 域 可 能 缺乏 或 存在 无 法 使 用 的 纹理 (街道 、 草 坪 ) 和 重 
复 结构 (窗户 、 篇 斧 )， 在 视觉 上 无 法 区 分 。 此 外 ， 时 间 的 变化 很 容易 使 跟踪 模型 过 

、 变 化 的 天 气 条 件 或 者 季节 性 的 树叶 。 

e 定位 数据 库 。 区 域 覆 盖 广 泛 的 跟踪 模型 称 为 定位 数据 库 ， 其 数据 量 可 能 非常 大 。 搜 
索 这 样 一 个 数据 库 需 要 很 长 的 时 间 并 且 不 容易 扩展 。 通 过 系统 地 获取 户外 图 像 来 创 
建 定位 数据 库 是 一 个 劳动 密集 型 过 程 ， 并 且 这 样 的 数据 库 通常 不 支持 增 量 更 新 。 

e 用 户 。 通 常情 况 下 ,我们 难以 奢求 增强 现实 系统 的 入门 级 用 户 能 够 深入 理解 系统 的 
操作 。 在 室内 时 ， 用 户 仅 在 一 个 小 的 空间 工作 ， 增 强 现实 设备 必须 指向 的 工作 区 通 
篆 清 晰 明了 。 但 是 在 户外 时 增强 现实 的 覆盖 范围 并 不 十 分 清晰 ， 无 法 局 动 跟踪 或 者 
看 到 增强 现实 重 芭 信息 可 能 会 令 用 户 感到 泪 丧 。 

总 而 言 之 ， 这 些 问题 提高 了 可 接受 的 户外 增强 现实 跟踪 解决 方案 的 门槛 。 最 成 功 的 解决 
方案 使 用 的 是 依赖 于 定位 数据 库 、 基 于 模型 的 自然 特征 跟 踊 方法， 通常 采用 描述 符 等 信息 标 
注 的 大 量 点 云 表 示 (OLN 4.25 )。 
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图 4.25 ”利用 SFM 从 大 量 全 景 图 像 中 计算 得 到 的 奥地利 格拉 区 大 广场 (由 Clemens Arth 
提供 ) 


跟踪 或 定位 基于 我 们 前 面 讨论 的 自然 特征 匹配 技术 ， 但 必须 通过 额外 的 措施 进行 增强 来 
使 方案 具有 可 扩展 性 。 增 强 措施 包含 以 下 四 个 方面 : 可 扩展 的 视觉 匹配 策略 ;使 用 传感器 的 


PGE POH HMR 113 


先 验 信息 修剪 搜索 空间 进行 视觉 匹配 ; 利用 几何 先 验 信息 ; 同步 跟踪 、 地 图 构建 和 定位 。 


4.6.1 可 扩展 的 视觉 匹配 


当 跟 踊 模 型 的 尺寸 太 大 (例如 整个 城市 ) 时 ， 简 单 地 利用 兴趣 点 计算 描述 符 然后 进行 特 
征 匹 配 的 方法 变 得 不 可 行 。 这 种 方法 的 效率 很 低 ， 其 原因 在 于 与 整个 数据 库 逐 一 匹配 需要 太 
长 时 间 ， 同 时 也 是 无 效 的 ， 因 为 即使 使 用 像 SIFT 这 样 复杂 的 描述 符 依 然 没 有 足够 的 区 分 度 。 

为 了 提高 效率 〈 即 搜索 速度 )， 数 据 库 通常 通过 特征 的 k-means 聚 类 组 织 为 树 状 结构 。 在 
这 样 的 树 中 搜索 一 个 特定 特征 所 需 的 步 数 与 特征 数 是 对 数 关 系 。 为 了 提高 线性 搜索 的 效率 ， 
树 的 分 文 宽度 通常 非常 冤 ， 例如 10 ~ 50 个 分 文 。 

从 查询 图 像 中 提取 的 特征 会 受到 测量 噪声 的 影响 ， 因 此 可 能 不 会 与 数据 库 中 的 特征 完全 
匹配 。 匹 配 需要 能 够 容忍 输入 特征 和 数据 库 特 征 之 间 的 微小 差异 。 随 着 特征 数量 的 增加 ， 特 
征 之 间 的 平均 差异 变 小 ， 因 此 很 难 将 这 种 容忍 性 圳 括 其 中 。 其 结果 是 匹配 可 能 不 会 返回 唯一 
的 结果 ， 而 是 返回 输入 特征 相似 度 排序 的 推定 匹配 列表 。 在 前 文 提 到 ， 通 和 党 只 有 当 第 二 最 佳 
匹配 的 比率 小 于 0.8 时 ， 最 佳 匹 配 才 会 被 接受 。 取 决 于 树 中 旋转 元 素 的 选择 方式 ， 由 于 搜索 
了 树 中 的 错误 路 径 ， 有 时 输入 特征 可 能 甚至 不 会 返回 最 接近 的 匹配 。 

为 了 提高 匹配 的 有 效 性 ， 我 们 必须 找到 可 以 容忍 一 定数 量 的 不 良 数据 关联 的 方法 。 用 于 
此 目的 的 最 常用 方法 是 词 袋 模型 。 它 建立 在 图 像 特征 的 共 现 之 上 ， 在 这 一 情境 中 通常 被 称 为 
“视觉 词汇 ”来 强调 与 文本 检索 的 关系 。 虽 然 检测 单个 图 像 特 征 可 能 不 足以 确保 数 百 万 特征 
的 可 靠 定 位 ,但 图 像 中 特征 的 共 现 可 以 提供 必要 的 辨别 力 。 

词汇 树 [Nistér and Stewenius 2006] 是 一 棵 搜索 树 ， 与 特征 1:1 对 应 的 原始 叶子 被 忽略 。 
原始 叶子 上 方 的 中 间 节 点 与 一 个 视觉 词汇 (量化 描述 符 ) 相关 联 并 成 为 新 的 叶子 。 每 个 视觉 
尊 汇 具有 反 向 文件 结构 作为 其 载荷 而 不 是 特征 列表 。 树 是 利用 与 三 维 点 云 相 关 的 特征 创建 


件 指向 提取 描述 符 的 图 像 索 引 。 源 图 像 是 指 从 中 提取 三 维 点 的 图 像 。 

来 源 于 同一 图 像 的 包含 特征 的 视觉 词汇 将 投票 给 该 图 像 。 因 此 通过 将 从 查询 图 像 中 获得 
的 所 有 特征 在 词汇 树 中 进行 搜索 ， 可 以 得 到 该 图 像 的 投票 直方 图 。 我 们 选择 直方 图 中 排名 最 
高 的 源 图 像 ， 其 原因 在 于 它 最 有 可 能 显示 与 查询 图 像 相 同 的 场景 。 然 后 将 查询 图 像 的 特征 与 
所 选 源 图 像 的 三 维 点 关联 的 特征 进行 匹配 。 通 过 考虑 排名 徘 前 的 多 幅 源 图 像 ， 可 以 让 这 一 方 
法 对 外 点 更 加 鲁 棒 。 我 们 只 保留 查询 图 像 中 的 兴趣 点 与 实际 出 现在 一 幅 源 图 像 中 三 维 点 的 关 
联 ， 然 后 将 此 过 程 产生 的 2D-3D 关联 传人 常用 的 RANSAC P3P 算法 ， 并 附加 额外 的 几何 验 
证 (WL 4.3.4 节 )。 

Irschara 等 人 [2009] 改进 了 初始 的 词汇 方法 ， 即 所 谓 的 虚拟 视图 。 在 预 处 理 时 从 SFM 
中 获得 的 三 维 点 被 重新 投影 到 通过 设置 虚拟 摄像 机 的 规则 网 格 创建 的 “虚拟 视图 ”中 。 这 些 
虚拟 视图 仅仅 作为 容纳 可 能 的 视点 空间 中 具有 几何 邻近 特征 的 共 现 容器 。 因 为 虚拟 视图 的 数 
量 可 能 变 得 非常 庞大 ， 所 以 通过 将 虚拟 视图 与 类 似 的 特征 集 进行 贪 禁 融 合 ， 可 以 获得 虚拟 视 
图 集 的 压缩 版 本 。 这 种 增强 的 最 终结 果 能 更 好 地 表示 词汇 树 中 特征 的 空间 相干 性 。 

Sattler 等 人 [2011] 提出 通过 直接 匹配 源 图 像 代 替 间 接 匹 配 来 加 速 数据 关联 。 视 和 沉 词 汇 
直接 存储 关联 特征 的 列表 ， 在 查询 图 像 找 到 的 视觉 词 中 先 检查 仅 有 几 个 描述 符 的 词汇 。 成 
功 的 匹配 会 启动 主动 三 维 搜索 ， 附 近 的 三 维 点 被 反 回 投影 到 查询 图 像 中 以 寻找 更 多 的 匹配 
[Sattler et al. 2012]. 
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对 于 更 大 范围 的 位 姿 佑 计 ，Li A [2012] 引入 了 一 个 世界 范围 的 位 姿 定位 流程 。 通 过 


估计 摄像 机 相对 于 大 范围 地 理 注 册 的 三 维 点 云 的 6 目 由 度 位 姿 ， 解 决 了 确定 未 标定 摄像 机 要 
摄 位 置 的 问题 。 


46.2 (ERRIME a 


现代 移动 设备 通常 配备 有 多 种 传 感 锅 : GPS 、 磁 力 计 和 线性 加 速度 计 。 虽 然 这 些 传 感 需 
的 性 能 受 环境 变化 的 影响 很 大 ,但 是 它们 通常 适用 于 获取 户外 定位 的 先 验 信 息 。 所 获得 的 先 
验 信息 随 后 通过 基于 图 像 的 定位 得 到 改善 。 利 用 传 感 融 的 先 验 信息 修 瘟 本 地 数据 库 能 够 显 闭 
地 减 小 数据 库 的 规模 ， 从 而 提高 运行 效率 和 定位 成 功率 。 此 外 ,修剪 后 的 数据 库 规模 在 很 大 
程度 上 与 整体 数据 库 的 规模 无 关 。 因 此 这 种 修剪 技术 可 以 根据 需要 将 云端 的 相关 特征 下 载 到 
BN AS FP Vifi o 

GPS 是 先 验 信息 的 主要 来 源 。 给 定 地 理 对 齐 的 SFM 重建 后 ， 可 以 确定 三 维 点 和 摄像 机 
位 姿 的 全 局 注册 坐标 。 使 用 类 似 于 4.6.1 市 讨论 的 虚拟 视图 的 想法 ， 可 以 利用 该 信息 将 数据 
库 组 织 成 规则 或 不 规则 的 地 理 网 格 ( 见 图 4.26 )。 仅 考虑 虚拟 视图 中 与 GPS 先 验 信 息 足 够 接 
近 的 特征 点 进行 匹配 。 如 果 在 有 限 距 离 内 可 以 观察 到 大 多 数 特征 ， 我 们 甚至 可 以 仅 通 过 量化 
三 维 点 的 地 理 坐 标 来 组 织 数据 库 [Takacs et al. 2008]. 
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图 4.26 重建 后 城市 区 域 的 相关 部 分 可 以 细 分 为 单 区 ， 通 过 基于 GPS 测量 结果 预先 选 
择 作为 源 的 单 区 ， 可 以 大 体 上 修剪 重建 数据 库 中 的 相关 部 分 (由 Clemens Arth 
提供 ) 


由 磁力 计 测 得 的 水 平方 癌 佑 计 也 可 用 于 数据 库 修 剪 。 根 据 特 征 点 法 线 投影 到 地 平面 上 的 
朝向 可 以 对 特征 进行 预 分 类 。Arth 等 人 [2012] 使 用 间隔 45° 的 八 个 重 委 扇形， 每 个 扇形 覆 
m 60° 的 视 场 角 ( 见 图 4.27 ). 

通过 使 用 线性 加 速度 计 测 量 重 力 可 以 获得 垂直 方向 佑 计 。 重 力 在 增强 现实 中 有 两 种 用 
途 。 第 一 ， 它 可 以 取代 SIFT 类 特征 中 的 主 梯度 方 问 [Kurz and BenHimane 2011]。 在 城市 环 
境 中 大 多 数 的 特征 都 是 在 建筑 立 面 上 ， 因 此 具有 垂直 朝 癌 ， 利 用 重力 对 齐 的 特征 可 以 提高 匹 
配 性 能 ( 见 图 4.28 )。 第 二 ， 重 力 可 以 用 来 估计 视图 的 倾斜 度 。 类 似 于 磁力 计 可 以 提供 水 平 
裁剪 ， 这 提供 了 特征 垂直 修剪 的 可 能 。 然 而 由 于 建筑 物 下 方 的 街道 和 上 方 的 天 空 不 包含 可 靠 
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的 兴趣 点 ， 因 此 垂直 修剪 的 收益 较 小 。 


方位 感知 特征 修剪 方位 感知 特征 匹配 





图 4.27 磁力 计 (罗盘 ) 可 以 用 作 先 验 信息 的 来 源 ， 将 对 应 点 的 搜索 范围 缩小 到 正常 朝 
问 用 户 的 区 域 (由 Clemens Arth 提供 ， 见 彩 插 ) 


普通 (E 方位 感知 (重力 和 
梯度 方向 ) 法 向 量 ) 





图 4.28 ”与 梯度 等 视觉 属性 相 比 ， 带 有 重力 校准 朝向 的 特征 可 以 得 到 更 可 靠 的 匹配 (由 
Clemens Arth 提供 ) 


综合 来 看 ， 使 用 传 感 吉 作为 先 验 信息 的 来 源 可 以 将 定位 的 成 功率 提高 15% [Arth et al. 
2012]。 然 而 ， 这 项 技术 带 来 的 好 处 主要 是 通过 修剪 数据 库 获 得 更 快 的 搜索 速度 。 由 于 移动 
设备 的 存储 带宽 通常 非常 有 限 ， 因 此 采用 这 种 技术 。 


4.6.3 几何 先 验 信息 


Google Maps 和 OpenStreetMap 等 广泛 使 用 的 在 线 地 理 信息 系统 (GIS) 为 先 验 位 置 数据 
提供 了 另外 一 个 来 源 。GIS 可 以 提供 建筑 物 的 轮廓 ， 有 时 还 可 以 提供 数字 高 程 模 型 (DEM )。 
通过 推算 建筑 物 轮廓 并 将 其 与 DEM 整合 ， 可 以 计算 出 城市 环境 的 粗略 三 维 模型 。 

当 该 信息 与 来 自 GPS 和 磁力 计 的 先 验 位 姿 数 据 组 合 时 ， 所 得 到 的 模型 可 以 用 来 修剪 定 
位 数据 库 。 利 用 先 验 信息 估计 的 相机 位 姿 先 确定 模型 的 哪 一 部 分 (例如 室内 模型 的 外 立 面 
或 墙 ) 可 见 ， 进 而 计算 出 潜在 可 见 集 [Airey et al. 1990] 并 修剪 相应 的 搜索 空间 。 与 使 用 先 
验 位 置信 息 相 比 ， 这 样 的 计算 可 以 更 大 程度 地 减少 数据 量 [Arth et al. 2009] ( 见 图 4.29 ) 。 
此 外 ， 足 人 够 接近 GIS 获取 的 外 立 面 三 维 点 会 被 标记 为 属于 外 立 面 ， 这 在 点 云 上 施加 了 额外 
的 语义 结构 ， 可 用 于 在 匹配 时 改进 内 点 验证 。 外 立 面 也 可 以 直接 与 GIS 数据 匹配 [Arth et 
al. 2015]. 
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图 4.29 ”中 心 广场 的 潜在 可 见 集合 包含 与 广场 直接 相连 的 街道 区 段 ( 蓝 色 箭头 )， 但 是 不 
包含 一 到 两 个 转弯 之 后 的 街道 区 段 (RR), MEt 


4.6.4 ”同时 跟踪、 地 图 构建 及 定位 

在 4.5 节 中 我 们 讨论 了 SLAM， 它 能 够 进行 无 模型 跟踪 ， 但 只 是 相对 于 一 个 局 部 的 起 始 
点 。 对 于 全 球 配 准 信息 (比如 街道 名 称 ) 的 户外 增强 现实 显示 系统 ， 只 有 SLAM 并 不 可 行 

当然 ， 如 果 我 们 有 一 种 方法 可 以 将 SLAM 的 相对 坐标 系 至 少 连接 到 全 球 配 准 信息 一 次 ， 
那么 SLAM 就 能 够 提供 进行 户外 跟踪 的 有 用 机 会 。SLAM 不 需要 预先 做 好 的 跟踪 模型 ， 但 依 
赖 当 前 环境 中 的 视觉 信息 ， 这 些 信息 包含 与 天 气 有 关 的 效应 等 仅 在 短 时 间 内 有 效 的 现象 。 除 
此 以 外 ，SLAM 能 够 独立 运行 在 一 人 台 移 动 设 备 上 ， 不 需要 额外 的 支持 设备 。 最 后 ,由 SLAM 
创建 的 地 图 将 许多 空间 相 邻 视点 的 信息 集成 到 单数 据 结构 中 。 如 果 一 人 台 视 场 较 小 的 摄像 机 不 
足以 在 一 个 大 数据 集 上 完成 定位 过 程 ， 那 么 在 地 图 上 汇集 的 信息 可 能 已 经 足够 成 功 了 。 

通过 采用 同时 跟踪、 地 图 构建 及 定位 可 以 抓 住 这 些 机 会 ( 见 图 4.30 )。 使 用 这 一 方法 时 ， 
一 个 客户 端 SLAM 系统 需要 和 服务 器 端 定位 相 结 合 。 客 户 端 和 服务 器 端 通过 无 线 网 络 松 耦 
合 ， 每 个 主机 以 其 自身 的 速度 异步 运行 。 服 务 顺 端 定 位 能 够 充分 利用 可 扩展 服务 磊 技 术 ， 不 
会 影响 客户 端的 移动 性 。 
广 域 视 觉 特 
征 数据 库 
服务 器 
新 的 关键 帧 去 
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跟踪 的 全 局 位 姿 
图 4.30 ”传统 的 SLAM (Kf) 在 一 台 移 动 客 户 端 设备 上 进行 同时 跟 踩 与 地 图 构建 。 通 
过 增加 一 台 定 位 服务 器 ( 橘 黄色 )， 可 以 加 入 第 三 个 并 发 活动 : 为 广 域 定 位 匹配 
一 个 视觉 特征 的 全 局 数据 库 。 客 户 端 和 服务 器 独立 运行 ， 所 以 客户 端 能 够 一 直 
以 最 高 帧 率 运行 ， 见 彩 插 
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一 旦 地 图 被 扩展 ， 客 户 端 就 连续 地 更 新 服务 器 。 这 些 地 图 更 新 仅 由 一 条 包括 关键 帧 和 相 
关 本 地 位 姿 的 信息 组 成 。 服 务 需 收集 这 一 信息 并 重复 地 符 试 从 其 中 获得 全 局 位 姿 。 服 务 般 成 
功 后 会 通知 客户 端 ， 然 后 客户 端 能 够 将 本 地 位 姿 升 级 为 全 局 位 姿 并 开始 显示 全 局 配 准 信息 。 
即使 服务 器 不 再 提供 任何 额外 的 位 姿 更 新 ， 客 户 端 也 可 以 在 全 局 坐标 系 中 继续 运行 。 客 户 端 
甚至 可 以 在 全 局 坐标 系 下 仅 通过 其 局 部 地 图 信息 进行 重 定 位 。 

最 简单 的 客户 端 SLAM 实现 方法 是 全 景 定位 和 地 图 构建 [DiVerdi et al. 2008] [Wagner et 
al. 2010]， 可 以 实时 创建 如 图 4.31 所 示 的 全 景 图 。 用 户 被 限制 为 直立 并 只 能 使 用 摄像 机 做 旋 
转运 动 ( 见 图 4.32 )， 从 而 不 需要 通过 6 上 自由 度 运 动 获 取 局 部 结构 。 这 样 的 探索 式 增强 现实 
用 法 对 户外 用 户 非常 普遍 。 





图 4.31 实时 全 景 SLAM 获得 的 全 景 图 (由 Clemens Arth 提供 ) 





图 4.32 在 使 用 全 景 SLAM 时 用 户 只 能 做 旋转 运动 ， 就 像 探 索 当 前 环境 那样 (由 Daniel 
Wagner 提供 ， 见 彩 捅 ) 


将 运动 约束 为 只 能 旋转 把 SLAM 问题 缩小 到 3 自由 度 的 图 像 对 齐 ， 只 需要 计算 一 个 单 
应 并 且 甚 至 能 够 在 慢 设 备 上 实时 处 理 。 全 景 的 SLAM 也 不 要 求 在 初始 化 SLAM 地 图 前 建立 
基线 ， 尽 管 众所周知 ， 这 一 操作 对 没有 训练 过 的 用 户 十 分 困难 [Mulloni et al. 2013]。 能 够 与 
户外 定位 数据 集 匹 配 的 特征 数量 大 概 随 摄像 机 的 视 场 线性 增加 [Arth et al. 2011]， 这 并 不 令 
人 惊奇 。 构 建 更 大 的 全 景 地 图 提高 了 最 终 成 功 定位 的 机 会 ( 见 图 4.33 )， 因 此 最 好 重复 尝试 
利用 单个 罕 视 场 图 像 计 算 定 位 





配 。 注 意 ， 在 外 立 面 可 以 被 直接 观察 
到 的 方向 上 效果 很 好 ， 但 是 在 面向 街道 时 效果 不 好 。 这 说 明 为 什么 大 视 场 是 可 
靠 的 户外 定位 所 必需 的 (由 Clemens Arth 提供 ) 


如 果 可 以 使 用 一 个 全 6 自由 度 的 SLAM 系统 ， 用 户 不 必 被 约束 在 一 个 特定 的 区 域 ， 因 
此 可 以 获得 更 广阔 的 视点 ， 同 时 用 户 也 能 够 自由 地 探索 环境 。 图 4.34 展示 了 一 个 正在 访 
问 多 视点 的 用 户 。 正 如 在 4.5 节 中 讨论 的 那样 ， 利 用 一 个 6 自由 度 的 SLAM 地 图 计算 全 局 
位 姿 在 算法 上 等 效 于 环 闭 合 [Ventura et al. 2014a]。SLAM 地 图 与 全 局 重建 通过 一 个 7 自由 
度 相 似 变 换 ( 3 自由 度 位 置 +3 自由 度 方向 +1 自由 度 尺度 ) 关联 。 这 个 变换 可 以 通过 点 云 
对 齐 [Umeyama 1991] 来 确定 ,但 是 利用 一 个 小 的 SLAM 地 图 获得 所 要 求 的 匹配 会 有 些 困 
WE, Ventura 等 人 [2014b] 提出 了 一 种 使 用 最 优 Grobner 基 求 解 四 个 2D-3D 对 应 的 有 效 方法 ， 
Sweeney 等 人 [2014] 提出 了 一 种 高 精度 地 求解 市 有 交 三 4 对 应 的 更 一 般 问 题 的 方法 ， 将 其 
转化 为 一 个 最 小 二 次 代价 函数 的 最 小 化 。 





图 4.34 客户 端 利 用 6 自由 度 SLAM 跟踪 的 视频 序列 中 的 多 幅 图 像 ， 定 位 服务 器 提供 
用 于 透明 黄色 结构 覆盖 楼 房 轮 廓 的 全 局 位 姿 (由 Jonathan Ventura 和 Clemens 
Arth 提供 ， 见 彩 插 ) 


如 果 服 务 需 成 功 地 进行 了 和 定 位， 作为 副产品 ， 计 算得 到 的 闭环 信息 可 以 被 客户 端 用 来 进 
行 局 部 集束 调整 以 限制 局 部 地 图 的 漂移 。 地 图 本 质 上 固定 在 由 服务 器 匹配 的 三 维 点 上 ， 使 得 
地 图 构建 更 加 稳定 和 可 扩展 。 与 此 同时 ， 地 图 包含 了 不 能 存储 在 全 局 数据 集中 的 近期 观察 信 
息 ( 见 图 4.35 ) 。 
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图 4.35 该 SLAM 序列 从 外 立 面 跟踪 (黄色 覆盖 区 域 ) ， 全 局 位 姿 由 服务 器 确定 。 
aa 集成 在 SLAM 地 图 中 的 前 
景 海报 用 于 跟踪 (由 Jonathan Ventura 和 Clemens Arth 提供 ， 匈 彩 捅 ) 


SLAM 系统 的 一 个 局 限 性 就 是 对 摄像 机 基线 的 基本 需求 ， 要 求 基 线 相 对 于 要 建 模 的 物体 
具有 有 意义 的 尺寸 。 在 户外 场景 中 的 物体 很 容易 就 有 几 十 米 或 者 几 百 米 的 距离 。SLAM 系统 
需要 依赖 移动 的 视点 ， 如 果 摄 像 机 只 能 旋转 则 SLAM 算法 不 能 成 功 运行 。 

考虑 到 在 户外 环境 中 建立 足够 的 基线 很 困难 并 且 用 户 可 能 更 喜欢 通过 旋转 运动 来 探索 周 
围 的 环境 ， 将 全 景 和 6 自由 度 的 SLAM 集成 到 单个 系统 中 会 很 有 帮助 。 当 用 户 无 意 中 做 出 
了 “错误 ”的 动作 ， 一 个 可 以 在 全 景 模式 和 6 自由 度 模 式 之 间 动 态 转换 的 系统 可 以 避 够 跟踪 
WM ( 见 图 4.36 )。 根 据 GRIC 分 数 ， 这样 的 组 合 SLAM 可 以 通过 分 析 运 动 来 构建 [Gauglitz 
et al. 2014c]。 


三 角 无 限 特征 
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图 4.36 A Ae 
不 被 局 限于 某 一 类 型 的 运动 上 。 当 额外 的 视点 可 用 时 ， 也 提供 了 从 全 景 特 征 ( 蓝 
绿色 ) 中 恢复 三 维特 征 ( 品 红 色 ) 的 机 会 (由 Christian Pirchheim 提供 ， 见 彩 插 ) 


通过 适当 的 地 图 构建 也 有 可 能 从 全 景 图 部 分 恢复 三 维 信息 ， 这 有 助 于 进一步 使 地 图 稠密 
并 拓展 地 图 [Pirchheim et al. 2013]， 同 时 ， 跟 踩 的 鲁 棒 性 也 会 显著 增加 ( 见 图 4.37 )。 
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图 4.37 任意 的 用 户 运 动 中 6 自由 度 与 全 景 SLAM 的 结合 更 有 助 于 和 鲁 棒 的 跟 踊 。a) 传 
统 的 6 自由 度 SLAM 仅仅 能 跟踪 53% 帧 中 的 位 姿 。b) AGH) SLAM 可 以 跟踪 
98% Whi PAZ (FA Christian Pirchheim 提供 ， 见 彩 插 ) 
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本 章 讨 论 了 用 于 三 维 跟踪 的 计算 机 视觉 算法 ， 研究 了 影响 深远 的 使 用 案例 并 讨论 了 相关 
的 数学 技术 。 

正方 形 标志 点 跟踪 依赖 于 从 一 张 图 像 中 通过 人 简单 的 国 值 提取 一 个 多 边 形 形状 ， 根 据 标 志 点 四 
个 角 点 估计 得 到 单 应 并 计算 位 姿 。 这 种 方法 也 可 以 从 一 个 初始 的 估计 中 对 摄像 机 位 姿 进行 优化 。 

多 摄像 机 红外 跟踪 使 用 两 个 或 多 个 摄像 机 通过 目标 反射 的 红外 线 进行 三 角 测量 。 假 设 摄 
像 机 的 几何 配置 是 已 知 的 ， 可 以 从 两 个 或 多 个 观察 中 使 用 对 极 几 何 对 三 维 点 进行 三 角 测 量 。 
目标 的 本 地 坐标 系 也 可 以 通过 绝对 朝向 与 全 局 坐标 系 进行 关联 。 

通过 检测 的 自然 特征 跟 踊 通过 将 摄像 机 图 像 与 通过 真实 环境 建立 的 运动 模型 进行 匹配 ， 
不 需要 对 场景 进行 人 工 制 备 。 在 从 图 像 中 提取 兴趣 点 (比如 Harris, DOG 或 FAST) 后 ， 可 
以 创建 SIFT 等 描述 符 。 这 些 描 述 符 为 搜索 与 之 匹配 的 运动 模型 提供 了 一 种 有 效 的 方法 。 成 
功 匹 配 的 点 可 以 用 来 值 助 多 点 透视 算法 计算 摄像 机 位 姿 ， 通常 这 一 算法 般 在 一 个 带 有 和 鲁 棒 估 
计 的 RANSAC 循环 中 。 

增 量 跟 踪 使 用 主动 搜索 方法 在 帧 与 帧 之 间 跟 踪 兴 趣 点 ， 通 常 使 用 KLT 或 NCC 进行 匹 
配 。 文 持 这 种 增 量 搜索 的 摄像 机 先 验 信息 可 以 从 一 个 运动 模型 或 从 一 个 分 层 搜索 中 获得 。 增 
量 跟踪 通常 与 检测 跟 踊 相 结合 ,但 是 增 量 跟 踊 需 要 初始 化 才能 运行 。 

SLAM 不 依赖 预先 构建 的 模型 ， 但 在 摄像 机 探索 环境 时 使 用 从 运动 中 恢复 结构 的 方法 构 
建 跟踪 模型 。SLAM 首先 需要 通过 2D-2D 兴趣 点 对 应 估计 摄像 机 的 相对 位 姿 (比如 使 用 五 
点 算法 )， 然 后 对 三 维 点 进行 三 角 测 量 点 ， 最 后 使 用 集束 调整 限制 地 图 漂移 。 现 代 SLAM 通 
党 被 分 解 成 并 行 跟踪 和 地 图 构建 线程 ， 并 集成 了 重 定位 和 潜在 的 闭环 能 力 。 基 于 关键 帧 的 
SLAM 运行 在 黎 玖 的 三 维 点 上 ， 与 之 相 比 ， 稠 密 的 地 图 构建 需要 考虑 输入 图 像 的 所 有 像素 。 
尽管 这 增加 了 困难 环境 中 的 鲁 棒 性 ， 但 是 通常 需要 额外 的 硬件 或 非常 高 效 的 对 齐 技术 。 

户外 跟踪 必须 处 理 搜索 一 个 非常 大 的 定位 数据 集 带 来 的 额外 挑战 。 最 受 欢 迎 的 可 拓展 视 
觉 搜索 方法 依赖 于 词汇 树 的 使 用 。 这 个 数据 集 可 以 通过 来 自 GPS 或 磁 强 计 等 移动 传感器 或 来 
目地 理 信 息 系 统 的 先 验 数据 进一步 修剪 。 移 动 设 备 可 以 通过 在 本 地 运行 小 尺度 的 SLAM 并 与 
一 台 获 取 全 局 坐标 的 定位 服务 器 合作 拓展 户外 跟踪 。 局 部 SLAM 应 该 同时 支持 全 景 运 动 和 6 
目 由 度 运 动 ， 使 得 用 户 可 以 随心 所 愿 地 自由 探索 环境 。 鉴 于 来 自 领 先 再 现 地 图 供应 商 的 系统 
地 图 构建 和 重建 工作 已 经 取得 进展 ， 我 们 认为 户外 跟踪 系统 将 在 不 久 的 将 来 得 到 迅速 发 展 。 
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在 使 用 跟踪 系统 时 ， 首 先 需 要 掌握 多 坐标 系 。 为 了 保证 虚拟 的 对 象 可 以 正确 钱 加 在 被 跟 
踪 的 真实 对 象 上 ， 需 要 多 个 坐标 系 之 间 的 相互 协作 ， 这 个 过 程 称 作 注 册 ， 将 跟踪 的 位 姿 信 
恩 转 换 到 泻 染 应 用 的 坐标 系 中 。 为 了 将 泻 染 摄像 机 与 被 跟踪 的 显示 带 对 准 ， 同 样 需要 进行 注 
册 。 在 第 4 章 中 ,我 们 已 经 看 到 如 何 通 过 绝对 朝向 算法 把 跟 踊 坐标 系 注册 到 对 象 坐标 系 中 。 

增强 现实 中 的 注册 指 的 是 对 组 件 的 标定 。 本 曹 首先 分 析 摄 像 机 内 参 和 镜头 畸变 的 标定 方 
法 ， 然 后 讨论 没有 辅助 指 癌 装置 和 有 辅助 指向 装置 两 种 情况 下 光学 透视 式 头 戴 式 显示 上 需 的 
标定 。 本 草 还 将 讨论 手 - 眼 标定 ， 这 可 以 用 于 同时 使 用 由 外 向 内 和 由 内 向 外 的 跟踪 系统 的 情 
况 。 最 后 ， 讨 论 增强 现实 注册 中 的 问题 和 误 善 来 源 。 正 如 在 第 3 章 中 提 到 的 那样 ， 想 要 快速 
学 习 的 读者 可 以 跳 过 铺 灰 底 中 的 内 容 。 


5.1 摄像 机 标定 


我 们 从 摄像 机 的 内 部 工作 原理 开始 讨论 。 标 定 一 个 摄像 机 包括 测量 摄像 机 内 参 以 及 镜头 
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5.1.1 摄像 机 内 参 


在 第 4 章 中 讨论 跟踪 技术 时 ， 我 们 假设 摄像 机 内 部 标定 矩阵 KK ( 见 4.1.1 节 ) 是 已 知 的 。 
投影 矩阵 由 内 参 和 外 参 组 成 : M = K[RIt]。 在 没有 任何 先 验 信息 的 情况 下 ， 可 以 通过 先 确定 
M， 然 后 将 M 分 解 得 到 K、R 和 t。 

使 用 最 广泛 的 摄像 机 标定 算法 由 Tsai[1986] 和 Zhang[2000] 提出 。 假 定 有 一 组 已 知 参考 
物体 的 2D-3D 点 对 集合 ， 该 参考 物体 被 称 为 标定 靶 。 使 用 最 广泛 的 标定 靶 类 型 是 棋盘 格 或 
者 点 阵 构 成 的 矩形 网 格 ， 其 原因 在 于 在 这 样 的 图 案 中 可 以 很 容易 地 将 间隔 规律 的 点 提取 出 
来 。 与 单 应 估计 不 同 ， 不 要 求 3D 点 共 面 ， 可 以 通过 将 两 个 标定 靶 正 交 排 列 或 者 对 同一 个 标 
定 驾 在 不 同 角度 进行 多 次 拍摄 来 进行 标定 〈 见 图 5.1). 





图 5.1 ”对 于 包含 已 知 尺 寸 的 规则 网 格 点 的 标定 图 案 ， 不 少 于 2 幅 图 像 就 能 满足 执行 摄 
像 机 内 参 标 定 算法 的 要 求 


5.1.2 ”校正 镜头 畸变 


真实 摄像 机 的 镜头 是 不 完美 的 ， 不 能 用 足够 精度 的 针 孔 模型 表示 。 如 果 畸 变 校正 没有 在 
数码 摄像 机 出 三 时 通过 出 广 标定 固化 到 固件 当中 ,， 则 必须 在 使 用 时 进行 镜头 畸变 的 校正 工 
作 。 当 考虑 镜头 畸变 时 ， 必 须 分 清 径 向 畸变 和 切 向 畸变 这 两 种 不 同形 式 的 畸变 。 径 向 畸变 扩 
展 或 者 压缩 图 像 ， 与 到 镜头 中 心 的 距离 有 关 ， 这 将 导致 枕 形 或 者 桶 形 畸 变 效果 ( 见 图 5.2 )。 
切 四 畸变 将 图 像 点 沿 着 围绕 镜头 中 心 某 个 圆 的 切线 方向 移动 。 需 要 注意 的 是 ， 这 些 畸 变 效果 
在 图 像 中 不 一 定 是 对 称 的， 其 原因 是 传感器 中 心 与 镜头 中 心 有 可 能 并 未 对 齐 。 通 常 ， 我 们 需 
要 对 径 回 畸变 进行 补偿 ， 由 于 切 向 畸变 要 小 得 多 ， 因 此 往往 可 以 忽略 不 计 。 

为 了 处 理 径 向 畸变 ， 我们 可 以 通过 畸变 图 像 点 d 和 投影 中 心 来 计算 非 畸 变 图 像 点 p。 
最 第 用 的 方法 是 使 用 下 面 的 多 项 式 近 似 : 
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r=, (d, —c,y +(d, -c y 
p, =d,+(d,-c,)(K,r’ +K,r +) 
p, =d,+(d,—e¢,)(K,r’ +K,r* +) (5.5) 




















图 5.2 ” 径 癌 畸变: a) 枕 形 畸变 ; b) JERE (由 Gerhard Reitmayr 提供 ) 


正如 前 面 所 述 ， 畸 变 点 可 以 通过 一 个 标定 图 案 得 到 。 对 于 传统 的 摄像 机 ， 通 常 只 需要 考 
虑 一 个 系数 K 就 能 满足 需求 。 但 是 对 于 广角 镜头 ， 就 需要 考虑 两 个 系数 天 AK, wA 
情况 下 ， 考 虑 两 个 以 上 的 系数 不 仅 不 会 改善 结果 ， 还 会 使 标定 过 程 更 加 不 稳定 。 图 5.3 
展示 了 被 校正 过 的 视频 图 像 ， 它 将 图 像 映射 到 一 个 常规 的 10 x 10 的 网 格 上 ， 其 纹理 坐标 通 
过 式 (5.5) 获得 。 





图 5.3 a) 失真 视频 图 像 ， 其 镜头 畸变 在 弯曲 的 门 和 门框 处 清晰 可 见 。b) 校正 过 的 视频 
图 像 ， 使 用 了 通过 镜头 畸变 标定 获得 的 纹理 映射 参数 (由 Anton Fuhrmann 提供 ) 


5.2 ERRIRE 

对 增强 现实 系统 的 完整 标定 ， 不 仅 包 括 输入 端 标 定 ， 还 包括 输出 端 标定 ， 即 显示 器 标 
定 。 基 于 已 知 的 摄像 机 内 参 和 外 参 ， 我 们 完全 能 够 在 一 个 视频 透视 式 显 示 器 上 呈现 配 准 的 增 
强 现实 个 加 信息 。 

对 于 光学 透视 式 显 示人 器 ， 需 要 将 摄像 机 跟踪 改 为 头 部 跟踪 来 确定 增强 现实 赤 加 信息 的 配 
准 情 况 。 头 部 跟踪 可 以 通过 由 外 向 内 的 方式 完成 一 一 例如 把 一 个 摄像 机 安装 在 头 戴 式 显示 器 
上 。 然 而 ， 头 部 跟踪 自身 并 不 能 确定 每 只 眼睛 相对 于 头 戴 式 显示 器 的 位 姿 。 考 虑 到 头 戴 式 显 
示 器 将 显示 器 放置 在 距离 眼睛 很 近 的 位 置 ， 所 以 需要 准确 标定 出 人 有 眼 - 显示 器 的 转换 关系 。 
幸运 的 是 ， 我 们 可 以 假设 这 个 转换 是 静态 的 ， 并 且 佩 戴 头 戴 式 显示 器 后 就 可 以 标定 出 来 。 在 
标定 期 间 只 要 头 戴 式 显示 器 没有 相对 头 部 进行 较 大 的 调整 ， 这 个 假设 就 是 有 效 的 。 
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标定 方法 ， 需 要 将 用 户 放 在 整个 标定 回路 中 。 在 标定 时 ， 系 统 显示 一 个 标定 图 案 ， 用 户 需 要 
把 物理 环境 中 的 一 个 特定 结构 与 标定 图 案 对 齐 。 这 个 步骤 可 以 采用 不 同 的 形式 ， 每 种 形式 给 
用 户 的 目 由 度 是 不 同 的 。 

在 Oishi 和 Tachi [1995] 的 工作 中 ， 用户 的 头 部 被 固定 在 一 个 指定 的 位 置 ， 并 且 在 一 个 
“靶场 ”中 的 不 同 距 离 上 为 用 户 展示 标定 图 案 ( 见 图 5.4 )。Azuma 和 Bishop [1994] 1E “Ai 
准 线 ” 方 法 ， 需 要 将 一 个 十 字义 丝 与 物理 视线 对 齐 〈 见 图 5.5 )。 





HFE 
图 5.4 HA “PH” TARE HMD, MPRE, ANERE E 
离 上 的 目标 





图 5.5 使 用 “瞄准 线 ” 方 法 标定 HMD。 用 户 必须 将 HMD 的 视 问 与 盒子 边 绿 对齐 


本 节 将 分 别 讨论 两 个 允许 用 户 自 由 移动 但 仍 能 提供 标定 约束 的 方法 。Tuceryan 等 人 
[2002] 提出 的 单 点 主动 对 准 法 要 求 用 户 将 十 字 又 丝 和 真实 世界 中 的 一 个 已 知 点 对 齐 ， 而 
Fuhrmann 等 人 [2000] 采用 了 额外 的 跟踪 畴 准 闻 置 。 与 那些 需要 用 户 在 标定 中 保持 静止 的 方 
法 相 比 ， 以 上 两 种 方法 提供 了 更 多 的 便利 ， 应 用 十 分 广泛 。 将 以 前 的 标定 结果 存储 下 来 可 以 
进一步 提升 这 些 方法 的 性 能 ， 这 使 得 标定 结果 可 以 从 一 个 时 间 段 传播 到 另 一 个 ， 甚 至 是 从 
一 只 眼睛 传递 到 另 一 只 《针对 立体 显示 需 )。 这 样 的 复 用 性 可 以 进一步 减少 用 户 的 标定 工作 
[Fuhrmann et al. 2000] [Genc et al. 2002], 

近年 来 ， 可 以 实时 检测 用 户 与 显示 器 相对 位 置 的 跟踪 系统 得 到 了 广泛 的 应 用 。 在 虚拟 展 
fa [Bimber et al. 2005]、 手 持 显示 器 和 头 戴 式 显 示 需 等 固定 的 光学 透视 式 显示 器 中 可 以 使 用 
HP IRE. Baričević 等 人 [2012] 描述 了 一 个 市 有 头 部 跟踪 功能 的 手持 显示 器 ， 可 以 实 
现 用 户 视 角 的 演 染 。 亚 马 逊 的 商用 Fire Phone 采用 了 类 似 的 方法 ， 同 时 使 用 了 4 个 前 置 摄 
Rko Itoh 和 Klinker [2014] 利用 一 个 安装 在 HMD 内 部 的 瞳孔 跟踪 器 来 实时 调整 注册 信息 。 
Plopski 等 人 [2015] 介绍 了 一 个 眼 部 跟踪 系统 ， 其 摄像 机 被 安装 在 HMD 内 ， 用 于 检测 显示 
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全 的 标定 图 案 在 人 眼中 的 反射 ( 见 图 5.6 )。 


== 





图 5.6 在 HMD 上 安 疙 一 个 随 问 内 部 的 摄像 机 ， 可 以 用 来 检测 棋盘 图 案 的 投影 ， 
推导 出 眼球 相对 于 显示 需 的 位 置 和 方 回 (由 Alexander Plopski 提供 ， hone 


5.2.1 单 点 主动 对 准 法 

单 点 主动 对 准 法 (SPAAM) [Tuceryan et al. 2002] 是 当前 使 用 最 广泛 的 头 戴 式 显示 器 标 
定 方法 之 一 。 该 方法 假设 光学 PATE ie ae WP AER KAI 
显示 右上 的 被 跟踪 点 记 为 五 ， 且 跟踪 变换 关系 被 描述 为 M “ 。 用 户 的 眼睛 五 可 以 观察 到 世 
界 坐 标 系 中 的 一 点 9， 且 该 点 的 2D 位 置 为 p ( 见 图 5.7 )。 





图 5.7 ”在 单 点 主动 对 准 法 中 ， 需 要 在 显示 天上 显示 一 系列 的 十 字 叉 丝 目 标 ， 用 户 必 须 
将 每 次 显示 的 十 字 又 丝 目标 与 真实 世界 中 的 一 个 已 知 点 对 准 (由 Jens Grubert 提供 ) 


标定 的 目标 是 确定 从 头 部 坐标 到 眼 部 坐标 的 投影 矩阵 M”, 

p = M” E M” "e (5.6) 

正如 4.1.1 区 所 摘 述 的 那样 ， 一 般 的 投影 矩阵 有 1 SARE, GAB ROS. 

示 需 并 不 能 准确 地 放置 在 人 眼前 方 的 中 央 位 置 ， 从 而 导致 离 轴 投 影 ( 即 式 (4.3 ) PABA c, 
和 c, 不 能 与 屏幕 中 心 准 确 对 应 )， 由 此 产生 的 视 锥 是 不 对 称 的 ( 见 图 5.8 )。 

SPAAM 的 目标 是 通过 至 少 6 组 由 用 户 交 互 获得 的 2D-3D 对 应 点 (12 ~ 20 组 对 应 点 会 
更 好 ) 来 计算 M”““。 用 户 会 在 屏幕 上 看 到 一 系列 处 于 位 置 p; 的 十 字 叉 丝 标记 ， 并 且 需 要 将 
ea i ni 系统 会 记录 这 
组 2D-3D 对 应 点 (p;，9;)， 其 中 9q,=M “q, 之 后 进入 下 一 个 标定 点 循环 
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AlS.8 通 篆 情况 下 ， 用 户 会 以 离 轴 投影 的 方式 来 观看 HMD 内 部 的 显示 器 。 因 为 观察 
方 问 是 垂直 于 像 面 的 ， 所 以 并 没有 位 于 视 口 中 心 ， 因 此 必须 使 用 斜视 锥 体 


所 需 的 投影 矩阵 可 以 通过 5.1.1 节 中 介绍 的 DLT 算法 从 这 些 对 应 中 计算 得 到 。 


0.2.2 ”使 用 指向 效 置 的 头 戴 式 显示 器 标定 


Fuhrmann 等 人 [2000] 提出 的 标定 方法 需要 一 个 附加 的 跟踪 指向 装置 。 与 SPAAM 中 用 
到 的 静止 标定 点 不 同 ， 该 方法 需要 将 指向 装置 与 显示 器 上 的 十 字 叉 丝 对 准 。 这 种 指向 装置 
经 常 作 为 增强 现实 设备 的 一 部 分 ， 包括 一 个 确认 对 准 的 触发 器 。 指 向 装置 的 优势 是 用 户 不 
必 上 再 通过 移动 涉 部 来 完成 对 准 ， 而 是 通过 移动 手臂 来 完成 ， 这 通常 会 更 加 精确 和 方便 ( 见 图 
5.9 )。 因 为 该 方法 要 求 用 户 在 执行 标定 输入 时 看 向 一 个 固定 的 显示 器 ， 因 此 也 可 以 用 于 “ 魔 
镜 ” 的 视频 透视 式 标 定 。 











qi 
样本 点 
qı q 
: Pi ; h U N 
l Pp: ” 
> N 
“ni qs 带 有 真实 标记 
fh 的 跟 踩 的 笔 w 
l ae | q qf 
P U : 
视点 像 面 
虚拟 标记 





AlS.9 ” 当 系 统 中 包括 指 问 装置 时 ， 可 以 通过 用 户 的 直接 输入 来 代替 SPAAM 中 世界 坐 
标 系 下 的 已 知 固定 点 。 用 户 可 以 通过 伸手 来 手动 选择 3D 点 的 距离 (由 Anton 
Fuhrmann 提供 ) 


这 个 方法 需要 用 户 确定 一 系列 线 而 非 孤 立 点 ， 确 定 线 的 方法 是 为 同一 个 十 字 叉 丝 位 置 确 
认 两 个 点 : 一 个 是 在 手臂 靠近 头 部 时 得 到 的 近 点 q ， 另 一 个 是 在 手臂 完全 伸展 开 时 得 到 的 
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远 点 qd 。 十 字义 丝 的 尺寸 指示 当前 是 需要 输入 近 点 还 是 远 点 。 这 个 步骤 需要 重复 4 次 ， 为 
每 个 乱 近 屏幕 角落 的 十 字 又 丝 点 p; 获得 一 条 直线 (qd , qd )， 因 而 可 以 估计 出 视 锥 体 。 

如 果 指 向 装置 D 的 转换 关系 可 被 跟踪 且 表 示 为 M”““， 我 们 分 别 将 8 个 输入 点 存储 为 
M "M" ~*”y". 

基于 几何 关系 或 者 与 SPAAM 中 相同 的 DLT 方法 可 以 恢复 从 五 到 EE 的 转换 关系 ， 几 何 
方法 计算 速度 更 快 。 首 先 这 四 条 线 应 该 相交 于 视点 ， 因 此 可 以 在 最 小 二 乘 意义 上 进行 计算 。 
通过 对 这 些 直 线 取 平 均 可 以 获得 一 个 合理 近似 的 视线 方向 ， 它 在 初始 时 被 假设 为 与 像 面 I 
EX. WYER RA TT 的 交点 可 以 估计 出 像 面 的 垂直 和 水 平方 向 ， 基 于 这 些 信息 可 以 获 
得 摄像 机 向 上 的 向 量 ,再 加 上 后 续 的 非 线 性 优化 ， 通 常 这 些 估 计 就 足够 了 。 


5.2.3 手 - 上 腿 标 定 


通过 4.2.6 市 可 知 ， 如 果 通 过 两 个 跟踪 系统 得 到 一 组 对 应 点 ， 就 可 以 使 用 绝对 朝向 方法 
来 对 准 两 个 跟踪 系统 的 坐标 系 。 在 增强 现实 中 ， 这 项 技术 经 常 被 用 于 将 跟踪 坐标 系 与 建 模 的 
真实 环境 对 准 。 在 其 他 情况 下 ， 两 个 跟踪 系统 可 以 部 署 为 刚性 连接 ， 但 是 不 能 观测 到 共同 的 
参考 点 。 人 举例 来 说 ， 一 个 摄像 机 可 以 被 安装 到 显示 器 上 ， 在 这 种 情况 下 ， 摄 像 机 由 内 向 外 来 
跟 踩 世界 中 的 物体 ， 而 显示 需 则 通过 由 外 向 内 的 外 部 跟踪 器 来 跟踪 ， 我 们 想 要 获得 从 显示 器 
到 摄像 机 的 转换 关系 。 

在 机 部 人 学 中 也 会 遇 到 类 似 的 情况 ， 此 时 摄像 机 CA) E 固定 在 机 器 人 RR 的 末端 执行 器 
( 手 ) 石上 。 机 器 人 单元 通过 机 械 方式 跟踪 R-H, 摄像 机 针对 标定 目标 7 以 视觉 方式 跟踪 E- 
T。 由 于 静态 变换 R-T 和 H-E 是 未 知 的 ， 我 们 需要 在 没有 共同 参考 物 的 情况 下 ， 通 过 两 个 跟 
踪 系 统 的 测量 数据 来 标定 H-E ( 见 图 5.10 )。 





图 5.10” 当 两 个 跟踪 系统 同时 使 用 但 是 没有 共同 的 参考 点 时 就 会 用 到 手 - 眼 标定 。 这 里 
我 们 的 关注 点 是 用 户 的 头 部 五 到 头 戴 式 摄 像 机 EE 的 静态 变换 XX。 外 部 跟踪 系 
统 怀 测量 其 自 喘 到 用 户头 部 五 的 变换 A， 而 摄像 机 EE 测量 其 自身 到 目标 物体 7 
的 变换 B。 根 据 A AB 可 以 计算 得 到 XX 
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我 们 可 以 通过 获取 一 些 观测 值 Mt ““ 和 了 M4“” 来 实现 手 - 眼 标定 ， 将 成 对 的 测量 值 Ck, 
k') 连接 成 相对 变换 : 


A=(M; Mi" B=(M ^ ME” (5.7) 
通过 这 些 相对 变换 可 以 使 用 下 式 计算 手 - 眼 标定 的 最 小 二 乘 解 X=M ”“: 
A;X = XB, (5.8) 


Tsai 和 Lenz [1989] 的 经 典 算法 解决 了 这 个 问题 ， 该 算法 首先 确定 X 的 旋转 部 分 ， 然 后 
确定 X 的 平移 部 分 。 
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5.3 注册 


现在 ， 我 们 已 经 知道 在 使 用 一 个 增强 现实 应 用 程序 之 前 需要 执行 的 离线 标定 步 又， 下面 
介绍 能 够 保证 在 实时 运行 时 正确 注册 的 技术 。 

系统 组 件 之 间 复 杂 的 相互 作用 表明 存在 众多 影 啊 注册 的 潜在 的 误差 源 。 正 如 3.3.12 FP 
提 到 的 ,我 们 可 以 区 分 静态 误差 (影响 准确 度 ) 和 动态 误差 (影响 精密 度 )。 校 正 静 态 误 差 主 
要 靠 改 善 标定 ， 即 消除 测量 和 参考 坐标 系 之 间 的 所 有 误 匹 配 。 目 前 还 没有 解决 的 主要 静态 误 
差 源 是 跟踪 系统 测量 数据 的 系统 非 线 性 。 由 于 不 能 通过 静态 标定 来 解决 ， 因 此 动态 误差 的 影 
响 更 加 严重 ， 本 节 主 要 针对 误差 传播 和 延迟 。 


5.3.1 几何 测量 失真 


传感器 系统 会 遭遇 一 些 具 有 挑战 性 的 环境 。 例 如 ， 电 磁 跟 踪 系 统 会 受到 环境 中 金属 和 磁 
场 的 影响 。Kinect 等 深度 传 感 右 在 工作 空间 的 远 端 会 有 明显 的 偏差 。 

这 些 几 何 失 真 通 常 是 非 线 性 和 单调 的 ， 这 表明 对 其 校正 的 概念 与 校正 光学 镜头 畸变 类 
似 。 首 先 ， 执 行 一 个 标定 步骤 来 获得 描述 畸变 的 数学 函数 。 然 后 ， 在 实时 运行 中 ， 每 一 个 测 
量 值 都 使 用 该 函数 的 逆 来 恢复 真实 值 。 

标定 步骤 包含 失真 测量 数据 的 采样 ， 以 保证 跟踪 系统 的 整个 工作 区 域 都 能 被 覆盖 ， 该 测 
量 必须 与 男 外 一 个 独立 跟 中 系统 所 提供 的 真实 数据 相关 联 。 这 个 额外 的 独立 系统 可 以 是 : 一 
个 值得 信赖 的 测量 系统 ， 例 如 机 械 系 统 (比如 机 械 臂 ) ; 一 个 手动 装置 ， 例 如 由 测量 尺 创建 
的 规则 网 格 。 

标定 测量 得 到 的 数组 可 以 直接 以 查找 表 的 方式 使 用 ， 也 可 以 转化 为 一 个 插值 函数 。 查 找 
表 方 法 需要 查找 测量 值 的 最 近邻 ,通过 这 些 相 邻 数据 的 插值 来 修复 失真 。 男 一 种 方法 是 采用 
一 个 低 阶 多 项 式 来 拟 合 这 些 测量 值 ， 通 常 在 每 个 维度 分 别 进行 。Bryson [1992] 的 报告 中 指 
出 使 用 3 ~ 4 阶 多 项 式 可 以 给 出 电磁 跟 踊 冀 的 最 佳 结 果 ，Kainz 等 人 [2012] 也 给 出 了 Kinect 
V1 深度 数据 的 相似 发 现 。 


5.3.2 误差 传播 


很 多 实际 的 增强 现实 系统 会 受到 误差 传播 问题 的 困扰 。 这 会 使 得 因 跟 踊 拌 动 和 标定 不 足 
产生 的 小 误差 成 数量 级 放大 。 尽 管 原始 误差 可 以 小 到 被 忽略 的 地 步 ， 但 是 放大 的 相关 误差 可 
能 不 能 再 被 忽略 。 

系统 组 件 之 间 的 各 种 相互 作用 会 导致 误差 放大 ， 但 是 最 常见 的 是 小 的 旋转 误差 导致 大 的 
平移 误差 。 在 使 用 由 外 向 内 的 方式 对 头 戴 式 显示 器 进行 跟踪 时 ， 如 果 用 户 面 回 定点 跟踪 系 
统 但 是 距离 较 远 ， 由 于 摄像 机 分 辨 率 的 限制 ， 跟 踪 系 统 给 出 的 用 户 视线 方向 将 包含 一 个 小 的 
旋转 误差 。 位 于 定点 跟踪 系统 附近 的 一 个 虚拟 物体 将 会 被 错误 地 放置 于 真实 世界 中 的 东 个 位 
置 ， 其 误差 与 用 户 到 跟踪 系统 的 距离 成 正比 ( 见 图 5.11 )。 

误差 传播 的 影响 可 以 通过 避免 坐标 系统 动态 级 联 来 最 小 化 ， 即 避免 将 一 个 坐标 系统 在 为 
一 个 坐标 系统 中 的 关系 直接 表示 出 来 。 例 如 ， 真 实 世 界 的 物体 应 该 在 跟踪 坐标 系 中 直接 存储 
和 操作 ， 而 不 应 通过 一 个 中 间 的 世界 坐标 系 。 如 果 采 用 本 地 对 象 坐标 系 ， 平 均 的 坐标 量 级 应 
该 是 最 小 的 。 这 个 效果 可 以 通过 将 物体 的 重心 作为 本 地 对 象 坐 标 系 的 原点 来 实现 。 





图 5.11 ”因为 小 的 角度 误差 会 导致 大 的 位 置 误差 ， 误 差 传 播 会 严重 干扰 注册 质量 。 由 外 
部 跟 蹊 系统 产生 的 旋转 误差 寻 致 虚拟 方块 与 其 在 真实 世界 的 对 应 物体 明显 失 配 


5.3.3 延迟 


当 用 户 的 运动 被 跟 踩 邢 观 测 到 后 ， 对 应 的 图 像 并 不 能 立即 显示 出 来 。 在 系统 能 够 根据 所 
测 到 的 用 户 运动 显示 增强 现实 图 像 之 前 ， 会 有 一 定数 量 的 延迟 。 这 种 端 到 端的 延迟 [Jacobs 
et al.1997] 由 以 下 几 个 部 分 组 成 ; 

e 传感器 执行 的 物理 测量 过 程 和 测量 数据 传输 到 主机 的 时 间 。 

e 主机 对 于 测量 数据 的 处 理 过 程 。 

e 主机 执行 的 图 像 生 成 过 程 。 

e 图 像 生成 器 和 显示 需 之 间 的 视频 同步 会 引发 一 帧 的 附加 延 返 〈 例 如 ， 对 于 60Hz 的 更 

新 速度 ， 延 迟 高 达 16.7ms ) 。 

e 在 图 像 最 后 显示 之 前 的 显示 器 内 部 延迟 。 

对 于 移动 用 户 来 说 ， 延 到 导致 的 时 间 误 差 会 直接 传递 到 空间 误差 ， 增 强 的 图 像 会 在 一 个 
错误 (过 时 的 ) 位 置 或 者 错误 (过 时 的 ) 摄像 机 位 姿 下 显示 。 

尤其 是 对 于 人 的 头 部 运动 ， 例 如 佩戴 着 头 戴 式 显示 器 时 转动 头 部 ， 延 迟 很 容易 成 为 最 大 
的 空间 误差 来 源 。 上 峰值 速度 为 500mm/s BK 50°/s 的 头 部 运动 会 导致 高 达 20 ~ 60mm 的 注册 
误差 。Holloway [1997] 引用 1mm/ms 的 延迟 作为 经 验 值 。 与 之 相对 ， 不 正确 的 标定 或 跟踪 
抖动 导致 的 误差 等 大 部 分 其 他 误差 均 小 于 10mm。 

延迟 的 影响 与 运动 速度 相关 ， 所 以 会 随 着 用 户 的 活动 而 动态 改变 。 用 户 感 觉 到 的 现象 是 
“ 像 瀛 ”"， 即 图 像 的 呈现 滞后 于 用 户 的 实际 运动 ， 并 在 运动 停止 后 在 上。 这 种 系统 表现 会 产生 
三 维 交 互 中 的 超 调 ， 在 严重 时 会 导致 举动 症 。 


9.3.4 滤波 和 预测 


如 采 在 测量 中 出 现 抖动 ， 必 须 通过 对 传 感 顺 数据 滤波 来 进行 平滑 。 类 似 地 ， 如 果 多 个 跟踪 
系统 一 起 使 用 ， 我 们 需要 滤波 玲 来 补偿 不 具有 系统 互相 关 性 的 单个 跟踪 系统 测量 噪声 ， 从 而 获 
得 平 请 的 跟踪 数据 ， 这 对 于 局 质 量 的 增强 现实 体验 更 加 适用 。 更 重要 的 是 ， 通 过 剔 除 滤波 器 
诱导 的 噪声 ， 我 们 能 够 使 用 合适 的 运动 模型 ( 见 4.4 节 ) 来 预测 和 补偿 一 定数 量 的 延迟 。 

三 谤 使 用 的 传 感 融 数 据 统 计 滤 波 方法 包括 卡尔 曼 滤 波 和 粒子 滤波 ， 两 者 都 能 归 为 “ 递 
归 ” 滤 小 禹 ， 它 们 依赖 最 近 的 计算 状态 ， 因 此 在 一 个 跟踪 回路 中 内 存 需 求 是 恒定 的 。 

卡尔 曼 滤波 [Kalman 1960] 假设 误差 可 以 使 用 正 态 分 布 描述 ， 并 且 系 统 状态 和 测量 值 的 
线性 组 合 可 以 用 来 识别 和 剔除 误差 。 该 滤波 器 分 两 步 操 作 : 预测 步骤 和 校正 步 又。 预测 步 
又 基于 之 前 的 值 预测 系统 未 来 状态 ， 以 时 间作 为 权重 。 校 正 步 又 使 用 新 测量 值 的 信息 来 更 
新 状态 和 防止 漂移 。 大 多 数 的 实际 传感器 系统 具有 非 线 性 表现 ， 可 以 使 用 扩展 卡尔 曼 滤 波 
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[Welch and Bishop 1995] 和 无 迹 变换 [Julier and Uhlmann 2004] 等 更 加 先进 的 模型 来 解决 。 

当 误 差 不 能 用 正 态 分 布 来 估计 时 ， 可 以 采用 粒子 滤波 器 [Isard and Blake 1998]。 这 是 一 
种 序列 蒙特 卡 罗 技 术 [Doucet et al. 2001]， 它 把 系统 状态 建 模 为 离散 粒子 的 集合 。 每 个 粒子 
根据 其 动态 行为 对 测量 中 所 观测 到 的 系统 状态 的 推断 程度 进行 迭代 加 权 。 

滤波 的 结果 是 通过 推断 来 预测 运动 [Azuma and Bishop 1994] 以 及 补偿 延迟 。 在 获得 一 
个 测量 值 后 ， 将 会 做 出 反映 估计 延迟 的 对 应 于 摄像 机 位 姿 系 统 状态 的 预测 ， 所 得 的 结果 是 图 
像 呈 现时 刻 最 可 能 的 摄像 机 位 姿 。 

为 了 进行 精细 化 的 预测 ， 这 个 过 程 可 以 分 解 为 更 细 的 步 又， 包含 通过 推断 和 插值 同步 
的 数据 流 [Jacobs et al. 1997]。 首 先 ， 跟 踪 系 统 必 须 配 置 为 比 显 示 器 所 需 更 高 的 频率 [Wloka 
1995]， 特 别 是 作为 次 跟踪 源 的 IMU 设备 可 以 提供 非常 高 的 更 新 速率 [Azuma and Bishop 
1994]。 其 次 ， 图 像 生 成 时 的 泻 染 视 口 必须 比 最 后 用 于 在 显示 右上 显示 的 视 口 更 大 。 最 后 ， 
会 基于 最 新 的 跟踪 数据 对 摄像 机 的 位 姿 进 行 预测 更 新 来 生成 并 呈现 一 幅 修 正 图 像 ( 见 图 
5.12 )。 图 像 修正 可 以 通过 使 用 立方 体贴 图 [Regan and Pose 1994] 或 者 和 逐 像素 的 图 像 扭曲 
[Mark et al. 1997] 从 宽 视 场 图 像 中 裁剪 [Mazuryk et al. 1996]。 在 视频 透视 式 增强 现实 中 ， 也 


可 以 延迟 视频 流 的 显示 [Bajura and Neumann 1995]。 






图 5.12 ”如 果 跟 踪 系 统 的 更 新 率 足 够 高 ， 通 过 预测 可 以 补偿 延迟 导致 的 注册 误差 。 首先 
基于 预测 的 摄像 机 位 姿 生 成 一 幅 图 像 ， 在 图 像 生成 后 ， 另 一 轮 根 据 更 新 的 跟踪 
信息 的 预测 会 被 用 于 调整 图 像 ， 以 保证 图 像 在 最 终 显示 时 与 用 户 视 点 匹配 


如 果 使 用 了 多 传感器 融合 ， 各 传感器 之 间 必 须 强 制 进行 时 间 配 准 ， 这 通 篆 通过 在 数据 获 
取 时 为 每 个 单独 的 测量 值 加 盖 时 间 戳 来 实现 。 理 想 情 况 下 ， 传 感 器 更 新 率 足 够 高 ， 在 进行 传 
感 器 融合 时 ， 只 需要 把 同一 时 间或 最 邻近 时 间 的 测量 值 简 单 结 合 。 如 果 使 用 统计 滤波 船 ， 可 
以 把 滤波 器 设置 为 无 论 何 时 有 新 数据 ， 都 允许 分 离 传 感 句 的 测量 值 在 不 同 的 时 间 导 和 滤波 怖 
中 [Welch and Bishop 1997]. 


5.4 ”小结 


为 了 实现 用 于 增强 现实 的 合适 标定 ， 所 有 的 系统 组 件 都 必须 仔细 标定 。 离 线 标定 包括 跟 
踪 系 统 《〈 摄 像 机 内 参 、 镜 头 畸 变 和 其 他 跟踪 系统 的 系统 失真 )、 显 示 堪 (透视 式 头 戴 式 显示 天 
标定 、 手 - 眼 标定 ) 和 相对 于 跟踪 系统 的 真实 世界 中 的 对 象 (绝对 朝向 )。 应 该 尽量 避免 产 
生 大 量 传播 误差 的 配置 。 

在 运行 中 ， 所 有 系统 组 件 的 良好 同步 对 于 保证 正确 的 时 空 注册 是 十 分 必要 的 。 这 可 能 需 
要 通过 运动 预测 (经常 基 于 卡尔 曼 滤 波 或 者 粒子 滤波 ) 来 补偿 不 可 避免 的 延 民 所 市 来 的 影 啊 。 
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视 党 一 致 性 





本 章 讲述 如 何在 增强 现实 系统 中 实现 视觉 一 致 性 的 输出 。 特 别 是 虚拟 物体 和 真实 物体 如 
何 结合 ， 从 而 实现 虚拟 物体 与 真实 环境 的 无 颖 融合 。 虽 然 并 不 是 所 有 类 型 的 增强 现实 应 用 虱 
期 望 实现 无 颖 融合 ,但 是 视觉 一 致 性 对 于 娱乐 、 教 育 和 商业 领域 的 应 用 非常 重要 。 第 5 章 已 
经 讨论 过 视觉 一 致 性 中 的 一 个 重要 内 容 一 一 空间 注册 。 本 草 重点 讨论 材质 外 观 的 相关 知识 ， 
主要 基于 实时 的 真实 感 计算 机 图 形 学 技术 。 


6.1 注册 


构建 增强 现实 系统 的 一 个 必要 条 件 是 真实 和 虚拟 场景 之 间 的 注册 。 前 文 提 到 的 增强 现实 
显示 中 每 一 帧 都 需要 空间 注册 ， 这 表明 了 实时 位 姿 跟踪 的 必要 性 。 给 定 观 察 者 (或 摄像 机 ) 
和 场景 的 相对 位 姿 后 ， 就 可 以 按照 准确 的 位 姿 将 虚拟 物体 放置 在 输出 图 像 中 《〈 见 图 6.1 )。 为 
了 把 一 个 三 维 物体 蔡 入 真实 场景 的 图 像 ， 一 般 情况 下 ， 需 要 在 与 真实 摄像 机 具有 同样 内 外 参 
数 的 虚拟 摄像 机 中 泻 染 虚拟 物体 。 





视频 





图 6.1 一 个 简单 的 增强 现实 泻 染 流 程 。 获 取 的 现实 世界 视频 与 独立 演 染 的 计算 机 图 形 
WA (AREA) 相 结 合 (由 Istvan Barakonyi 提供 ) 


利用 这 样 一 个 标定 过 的 摄像 机 可 以 生成 必要 的 深度 线索 。 深 度 线索 是 允许 人 类 理解 所 观 
察 场景 中 三 维 结构 的 刺激 [Goldstein 2009]， 共 有 大 约 15 ~ 20 种 不 同 的 深度 线索 ， 可 以 概 
括 地 分 为 单 目 深度 线索 和 双 目 深度 线索 。 单 目 深度 线索 能 够 通过 单 张 图 片 观 察 ( 见 图 6.2), 
而 双 目 线索 需要 借助 一 对 图 像 。 这 些 线索 必须 通过 特殊 的 显示 系统 生成 ， 例 如 只 有 通过 立体 
显示 装置 才能 产生 双 目 视差 (双眼 看 到 的 差异 )。 

考虑 到 现 有 的 大 部 分 增强 现实 显示 利用 单 目 视频 透视 模式 ， 因 此 单 目 深度 线索 在 增强 现 
实 中 更 为 重要 ， 它 们 可 以 仅仅 通过 计算 机 图 像 软件 产生 ， 其 中 最 重要 的 深度 线索 包括 : 

e 相关 尺寸 : 物体 距离 观察 者 越 远 ， 物 体 越 小 。 

o 相关 高 度 : 越 远 的 物体 在 图 像 中 的 起 始点 越 高 。 

o 透视 关系 : 平行 线 在 远 处 相交 于 一 点 。 


fil, i. — Ht 133 


表面 细节 : 较 近 的 物体 具有 更 加 密集 的 表面 细节 或 纹理 梯度 。 
KARA: 由 于 大 气 的 影响 ， 越 远 的 物体 越 模糊 并 且 更 蓝 。 

遮挡 关系 : 在 屏幕 区 域内 ， 距离 观察 者 近 的 物体 会 遮挡 较 远 的 物体 。 
明暗 对 比 : 物体 的 明 瞳 与 光源 的 位 置 和 方向 相关 。 

阴影 关系 : 物体 的 阴影 投射 在 其 他 物体 上 。 





图 6.2 通过 单 目 深度 线索 隐喻 可 以 在 单 张 图 片 中 观察 到 场景 结构 ( 见 彩 插 ) 


三 维 计 算 机 图 像 能 够 很 好 地 传送 这 些 线 索 。 诸 如 尺寸 、 透 视 、 高 度 和 表面 细 市 等 线索 是 
通过 一 个 与 真实 摄像 机 几何 注册 的 虚拟 摄像 机 直接 产生 的 。 大 气 衰 减 主要 应 用 在 大 范围 户外 
增强 现实 中 ， 本 书 不 展开 讨论 。 然 而 ， 在 增强 现实 泻 染 中 ,遮挡 、 明 暗 和 阴影 等 其 他 深度 线 
索 需 要 进行 特殊 处 理 。 

为 了 实现 虚实 融合 ， 增 强 现实 泻 染 需要 对 传统 的 计算 机 图 像 处 理 流 水 线 进行 扩展 〈 见 表 
6.1 )。 因 为 允许 对 目标 图 像 的 外 观 进行 全 面 的 控制 ， 视 频 透视 式 流水 线 比 光 学 透视 式 流水 线 
要 更 加 适合 虚实 融合 。 为 此 ， 本 章 提 出 针对 视频 透视 式 增强 现实 的 流水 线 ， 由 以 下 几 个 阶段 
组 成 : 

1 ) 获取 : 获得 真实 场景 的 模型 (几何 、 材 质 、 照 明 )。 

2) 注册 : 在 真实 场景 和 虚拟 场景 之 间 建 立 通用 的 几何 和 光度 特性 的 关系 。 

3 ) 合成 : 将 虚拟 场景 和 真实 场景 融合 为 单 张 图 像 。 

4) 显示 : 将 融合 图 像 呈 现 给 用 户 。 


表 6.1 视觉 一 致 性 流水 线 必 须 进行 获取 、 注 册 和 多 数据 源 融合 
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很 明显 ， 该 流水 线 比 标准 的 计算 机 图 像 泻 染 流水 线 更 为 复杂 ， 标 准 流水 线 只 需要 处 理 虚 
拟 场景 。 增 强 现实 泻 染 流水 线 中 虚拟 场景 和 真实 场景 都 需要 泻 染 ， 且 需要 提供 场景 的 几何 注 
册 和 光度 注册 。 

前 述 章 节 已 经 莫 定 了 几何 注册 (通常 称 为 注册 ) 的 基础 ,包括 第 3 草 提 到 的 如 何 获 取 几 
何 位 姿 的 更 新 、 第 4 章 介 绍 的 如 何 提 供 几 何 的 实时 获取 ， 以 及 第 5 章 讨 论 的 如 何 将 真实 场景 
和 虚拟 场景 进行 配 准 。 基 于 真实 场景 几何 和 虚拟 场景 配 准 的 相关 知识 能 够 直接 处 理 几 何 融 
合 。 首 先 ， 讨 论 如 何 解决 虚拟 物体 和 真实 物体 之 间 的 遮挡 问题 ， 即 图 像 合 成 在 增强 现实 中 的 
主要 应 用 。 

光度 注册 更 为 复杂 ， 描 述 了 对 虚拟 场景 和 真实 场景 感知 亮度 和 颜色 的 配 准 ， 因 此 是 视觉 
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一 致 性 的 关键 组 成 部 分 。 为 了 实现 光线 是 如 何在 虚拟 物体 和 真实 物体 之 间 传 播 并 最 终 到 达 
观察 者 眼中 的 可 信人 仿真 ， 不 仅 需 要 获取 真实 场景 的 几何 信息 ， 还 需要 获取 表面 材质 和 真实 光 
源 。 不 仅 要 获取 真实 场景 的 几何 形状 ， 还 需要 获取 其 表面 材质 和 雁 实 光源 。 

在 实现 了 几何 注册 和 光度 注册 之 后 ， 我 们 对 虚拟 场景 和 真实 场景 具有 了 全 面 的 描述 ， 
合成 ( 即 ， 将 虚拟 物体 和 真实 物体 一 起 泻 染 ) 需要 解决 光线 在 真实 物体 和 虚拟 物体 之 间 
传播 的 通用 照明 问题 。 有 关 增 强 现 实 中 的 相片 级 泻 染 可 参见 Jacobs 和 Loscos [2004] 以 及 
Kronander 等 人 [2015] 的 工作 。 

与 处 理 通 用 照明 不 同 ， 消 隐现 实 去 除 场 景 中 的 真实 物体 。 被 需要 去 除 物 体 履 盖 的 背景 通 
常 无 法 观察 到 ， 需 要 通过 其 他 (例如 概率 ) 方法 进行 恢复 。 

由 于 获取 和 注册 中 的 近似 和 误差 通常 不 可 避免 ， 合成 阶段 必须 注意 结果 的 差异 ， 至 少 要 
使 其 对 感知 的 影响 最 小 。 一 种 解决 这 个 问题 的 手段 是 摄像 机 仿真 ， 在 演 染 虚拟 场景 时 考虑 真 
实 摄像 机 的 行为 ， 从 而 使 结果 能 够 匹配 真实 场景 的 图 片 ， 另 一 种 手段 是 将 风格 化 滤波 舌 应 用 
于 整 张 合 成 图 片 。 


6.2 遮挡 

在 一 个 已 注册 摄像 机 的 视频 背景 上 简单 绘制 虚拟 物体 ， 不 足以 创建 一 个 虚实 共存 场景 的 
印象 。 如 图 6.3 所 示 ， 虚 拟 乐高 男孩 泻 染 的 屏幕 位 置 和 透视 关系 都 是 正确 的 ， 然 而 图 6.3a 没 
有 考虑 真实 世界 中 乐高 女孩 的 遮挡 关系 ， 导 致 合成 图 像 不 适 ， 不 能 有 效 传达 虚拟 物体 的 三 维 
位 置 。 该 问题 源 于 缺乏 根据 真实 世界 经 验 预 期 的 合适 深度 线索 、 





图 6.3 a) 虚拟 角色 被 放置 在 正确 的 位 置 ， 但 是 没有 考虑 被 真实 物体 的 遮挡 。b) 正确 的 
遮挡 演 染 产生 了 无 冲突 的 更 真实 感受 (由 Denis Kalkofen 提供 ) 


遮挡 是 最 强 的 深度 线索 之 一 ， 是 创建 通 真 的 增强 现实 场景 时 必须 解决 的 问题 。 遮 挡 可 以 
分 为 两 种 情况 ， 即 一 个 虚拟 物体 处 于 真实 物体 的 前 面 或 者 后 面 。 虚 拟 物 体 在 真实 物体 之 前 的 
情况 比较 容易 处 理 。 在 最 简单 的 情形 下 仅 仅 需要 在 视频 背景 上 绘制 虚拟 物体 ， 从 而 将 遮挡 视 
频 中 所 有 的 真实 物体 。 在 虚拟 物体 在 真实 物体 之 后 的 情况 下 处 理 合适 的 遮挡 关系 更 加 困难 ， 
而 且 在 演 染 中 需要 解决 方案 以 从 被 遮挡 的 虚拟 物体 中 区 分 可 见 部 分 。 

实现 这 一 效果 的 基本 算法 是 幻影 [Breen et al. 1996]。 约 影 泻 染 利用 现代 图 像 处 理 单 元 
(GPU) 的 标准 z 缓存 (深度 缓存 ) 能 力 。 幻 影 是 真实 物体 的 虚拟 表示 ， 被 不 可 见地 泻 染 ， 即 
RA z 缓存 区 被 修改 。 这 为 视频 中 可 见 的 真实 物体 建立 了 正确 的 深度 值 ， 因 此 虚拟 物体 能 够 
被 演 染 为 完全 遮挡 或 部 分 遮挡 。 如 果 幻 影 物体 被 正确 注册 ， 利 用 z 缓存 算法 ， 虚 拟 物 体 的 隐 
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藏 部 分 就 不 被 泻 染 。 以 下 伪 代 码 解释 了 细节 

1 ) 绘制 视频 图 像 至 颜色 缓存 ， 

2) 禁用 颜色 缓存 写 人 。 

3) 仅 将 真实 场景 幻影 泻 染 至 z 缓存 

4) 局 用 颜色 缓存 写 人 。 

5 ) 绘制 虚拟 物体 。 

和 ] 影 通常 使 用 传统 多 边 形 模 型 来 定义 能够 通过 标准 的 图 形 硬 件 演 染 ( 见 图 6.4 )。 然 而 
只 要 能 建立 深度 缓存 ， 也 可 以 使 用 其 他 的 幻影 模型 表示 。 例 如 Fischer 等 人 [2004] 在 体 模型 
上 采用 第 一 次 命中 等 面 光 线 投射 ， 从 而 不 需要 显 式 模型 就 可 以 动态 提取 次 度 信息 。 这 类 方法 
的 综述 在 6.2.3 方 给 出 ， 下 面 首 先 讨论 如 何 用 遮挡 细 化 和 概率 谈 挡 来 解决 基本 的 迹 挡 问题 。 
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图 6.4 ATES FA — ASEE DE eB TRE EE z BFF (由 Denis Kalkofen 提供 ) 


6.2.1 遮挡 细 化 

利用 幻影 绘制 方法 获得 的 遮挡 质量 取决 于 输入 数据 的 质量 。 错 误 遮 挡 的 主要 来 源 是 模型 
日 身 、 静 态 注册 误差 以 及 动态 往 册 误差 〈( 即 跟踪 误差 )。 

e 不 能 如 实 反 映 真 实 世 界 中 对 应 物体 的 虚拟 模型 无 法 产生 正确 的 遮挡 掩 模 。 

e 虚拟 世界 和 真实 世界 坐标 系 之 间 不 准确 的 静态 注册 意味 着 幻影 物体 将 在 错误 的 地 点 
或 错误 的 方向 演 染 ， 
由 于 摄像 机 位 姿 被 错误 估计 ， 跟 中 误差 导致 的 动态 注册 误差 会 恶化 原本 正确 的 静态 
注册 结果 。 

这 些 误差 会 导致 屏 短 空间 的 叫 挡 掩 模 与 真实 物体 不 符 。 不 笠 的 是 ， 人 类 十 分 擅长 检测 这 
种 失 配 ， 因 此 需要 为 其 提供 某 种 类 型 的 误差 修正 ， 这 种 修正 称 为 诞 挡 细 化 。 细 化 方法 是 基于 
启发 式 的 ， 但 在 很 多 实际 应 用 中 产生 了 良好 的 结果 。 

通常 遮挡 细 化 的 主要 思想 是 幻影 物体 的 轮廓 必须 足够 准确 以 便 产 生 非 穿 透 虚拟 物体 和 真 
实物 体 之 间 的 正确 遮挡 。 因 此 ， 构 成 轮廓 的 多 边 形 模型 的 边缘 必须 被 校正 ， 这 可 以 在 图 像 
空间 中 估计 得 出 。 概 念 上 来 说 ， 作 为 遮挡 边界 的 一 部 分 ， 对 于 一 个 遮挡 多 边 形 的 每 一 个 外 部 
边 绿 ， 需 要 通过 搜索 视频 图 像 来 狭 取 相 应 的 、 代 表 真 实 遮 挡 边界 的 临近 边缘 。 然 后 通过 调整 
多 边 形 来 匹配 图 形 中 找到 的 边 绿 。 此 外 ， 在 泻 染 遮挡 多 边 形 的 过 程 中 可 以 在 遮挡 边缘 附近 的 
alpha 缓存 区 应 用 透明 梯度 ， 从 而 通过 模糊 边缘 使 得 剩余 的 误差 变 得 不 明显 。 

Klein 和 Drummond[2004] 使 用 边缘 跟 足 来 识别 视频 中 必须 和 幻影 对 应 的 边缘 ， 然 后 通 
过 修改 幻影 的 几何 来 匹配 观察 。 与 之 相对 ，DiVerdi 和 Höllerer[2006] 仅 在 图 像 空 间 操作 ， 他 
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们 使 用 一 个 像素 着 色 需 顺 着 边缘 分 别 进行 每 个 像素 的 边 绿 校正 〈 见 图 6.5 )。 
边 绿 检测 匹配 的 ME Ye WY 
边缘 
a 


图 6.5 一 种 仅 在 GPU 中 完成 的 遮挡 细 化 方法 。 首 先 ， 在 视频 图 像 中 检测 边缘 并 与 虚拟 


钢 频 边缘 













模型 的 边缘 匹配 。 然 后 正确 的 边缘 通过 alpha 混合 在 由 它们 衍生 的 多 边 形 项 部 进 
行 融 合 


着 色 器 沿 着 梯度 最 大 值 的 边缘 法 线 方 向 搜索 ， 在 辅助 纹理 中 存储 搜索 结果 。 利 用 每 个 像 
素 的 边缘 遮挡 修正 进行 遮挡 多 边 形 泻 染 ( 见 图 6.6 )。 如 果 检 测 的 边缘 噪音 过 多 ， 则 需要 引入 
额外 的 边缘 平滑 步骤 。Zheng 等 人 [2014] 通过 计算 摄像 机 图 像 和 纹理 模型 泻 染 之 间 的 光 流 进 
一 步 获得 遮挡 细 化 的 稠密 对 应 。 





a) b) 


图 6.6 a) 通过 在 约 影 物体 的 投影 边缘 附近 搜索 对 应 真实 物体 的 边缘 ，b) 可 以 修正 遮挡 
边缘 (FH Stephen DiVerdi 提供 ， 见 彩 插 ) 


6.2.2 ”概率 遮挡 


Fuhrmann 等 人 [1999] 描述 了 一 种 用 于 幻影 泻 
染 的 概率 方法 ， 可 以 用 来 处 理 诸如 高 有 实时 获取 运 
动 四 上肢 位 姿 的 动作 捕 提 系统 的 移动 人 物 的 贸 接 模型 。 
对 于 人 手 等 不 能 进行 精确 跟踪 的 区 域 ， 使 用 了 概率 
模型 ( 见 图 6.7 ) 。 该 模型 由 多 重 瞬 套 表面 构成 ， 从 
最 里 面 到 最 外 层 的 表面 透明 度 越 来 越 高 ， 从 而 最 终 
图 像 被 观察 到 的 透明 度 与 手 处 于 特定 区 域 的 概率 大 
致 对 应 。 通 过 现代 图 形 学 ， 硬 件 可 以 在 着 色 器 中 使 
用 体 纹 理 或 者 计算 三 维 距离 场 来 实现 同样 的 目的 ， 
这 种 方法 能 够 简单 地 改善 市 有 手 部 跟 踊 的 增强 现实 
应 用 或 应 用 于 某 种 跟踪 不 确定 的 场合 。 图 6.7 一 种 幻影 泻 染 的 概率 方法 。 对 于 
手 部 等 没有 精确 跟 踊 的 区 域 ， 可 
6.2.3 TRAR 以 应 用 由 逐渐 增加 的 透明 层 表面 
增强 现实 应 该 应 用 在 动态 真实 世界 环境 中 ， 由 构成 的 概率 幻影 模型 
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于 并 不 总 是 能 够 预先 获得 幻影 物体 ， 因 此 ， 一 些 便 于 动态 获取 场景 深度 图 像 的 技术 得 到 发 
展 ， 这 可 以 通过 特殊 人 硬件 设施 或 者 通过 做 出 某 种 假设 来 实现 。 

一 方面 ， 物 体 分 割 可 能 依赖 于 通过 用 户 输 入 选择 前 景物 体 。Leptit 和 Berger [2000] 提出 
一 种 方法 ， 让 用 户 在 至 少 两 个 关键 帆 的 图 像 中 手动 分 割 前 景物 体 。 系 统 在 连续 帧 中 跟 踊 该 物 
体 的 轮廓 并 利用 这 些 信息 计算 正确 的 遮挡 关系 。 该 技术 的 优点 在 于 不 需要 明确 的 三 维 模型 。 
最 近 的 一 些 研究 工作 是 场景 中 物体 的 半 手 动 重建 方法 [van den Hengel et al. 2009][Bastian et 
al. 2010]， 通 过 类 似 的 方法 能 够 确定 遮挡 关系 。 

男 一 方面 ， 能 够 全 目 动 实时 获取 深度 图 像 显 而 易 见 的 方法 是 利用 专用 深度 传 感 磋 ， 包 括 
立体 摄像 机 [Wloka and Anderson 1995] 和 飞行 时 间 摄 像 机 [Gordon et al. 2002][Fischer et al. 
2007]。 如 图 6.8 所 示 ， 如 果 无 法 实现 深度 传 感 副 和 用 于 视频 透视 式 增强 的 摄像 机 的 刚性 连 
接 ， 那 么 必须 通过 动态 跟踪 信息 实现 次 度 图 像 和 视频 图 像 之 间 的 注册 ， 同 时 深度 图 像 必 须 被 
重 投影 在 摄像 机 的 视 场 空 间 中 。 重 投影 深度 图 像 必 须 被 传送 到 GPU 中 ， 用 于 计算 每 一 帧 的 
深度 。 目 前 深度 传 感 希 在 出 厂 时 都 已 经 得 到 了 校正 。 





a) b) 


图 6.8 a) 手 部 被 虚拟 物体 错误 地 遮挡 。b) REPRE YT APSA eM BARA 
实 世 界 物体 深度 的 简单 解 算 方案 (由 Lukas Gruber 提供 ) 


一 些 应 用 将 前 景 和 背景 的 分 割 作为 二 进 制 的 zz 缓存， 之 后 该 前 景 扼 模 可 以 用 来 计算 遮挡 
效果 。 因 为 深度 信息 非常 粗 米 ， 因 此 该 方法 主要 适用 于 前 景 和 背景 物体 不 会 随 着 时 间 改 变 的 
静态 相机 设置 。 

满足 该 要 求 的 一 个 应 用 领域 是 为 广电 产业 提供 数字 背景 的 虚拟 演播 室 。Grundhafer 等 人 
[2007] 描述 了 使 用 不 可 见 的 灯光 闪 控 来 检测 背景 前 演讲 者 轮廓 的 虚拟 演播 室 配置 ( 见 
图 6.9 ) 。 前 景 通过 与 摄像 机 同步 的 60Hz 闪光 灯 进 行 照明 ， 从 而 该 系统 能 够 通过 有 无 闪光 
灯 图 像 对 的 差异 进行 背景 分 割 。 

分 割 也 可 以 通过 检测 场景 中 某 些 确 定 的 物体 或 物体 类 型 来 实现 。 例 如 ， 在 计算 机 视觉 
领域 ， 大 量 的 研究 工作 集中 在 手 部 检测 。 由 于 用 手 或 手指 进行 指示 是 非常 具有 吸引 力 的 下 
接 交 互 形 式 ， 因 此 手 部 检测 被 广泛 地 应 用 于 增强 现实 中 。 例 如 ，Weir [2013] 研制 的 系 
统 使 用 了 基于 肤色 的 手 部 分 割 ( 见 图 6.10 )。 可 以 使 用 手 部 检测 来 决定 正确 的 遮挡 ， 通 常 
启发 式 的 假设 是 手 部 为 前 景物 体 ， 因 此 会 遮挡 所 有 的 虚拟 物体 。 尺 管 基于 颜色 的 分 割 耳 接 
利用 摄像 机 ， 不 需要 附加 的 硬件 ， 但 该 技术 的 一 个 缺点 是 鲁 棒 性 较 差 ， 而 且 在 明亮 的 环境 
中 容易 失败 。 





图 6.9 a) 演讲 者 在 虚拟 演播 室 中 的 动态 育 景 前 。b) 通过 使 用 结构 光 可 以 实时 分 割 前 景 
中 的 演讲 者 (由 Oliver Bimber 提供 ) 





图 6.10 发 表 在 IEEE ISMAR 2011 的 “BurnAR”， 基 于 肤色 实现 了 用 户 手 部 的 分 割 ， 
检测 到 的 手 部 被 虚拟 地 点 燃 (由 Peter Weir, Christian Sandor, Matt Swoboda., 
Thanh Nguyen, Ulrich Eck, Gerhard Reitmayr 和 Arindam Day 提供 ) 


6.3 ”光度 注册 
仅仅 计算 虚拟 和 真实 物体 之 间 的 遮挡 并 不 足以 提供 增强 现实 应 用 中 的 写实 图 像 ， 我 们 还 


\ 须 计算 光度 注册 ， 从 而 可 以 解决 虚拟 物体 如 何 被 连续 照明 的 问题 。 为 此 ， 我 们 不 仅 需 要 知 
道 虚 拟 和 真实 物体 的 几何 信息 ， 还 要 知道 真实 场景 的 人 射 光 照 ， 即 光源 。 光 源 的 数量 和 特征 


对 光线 仿真 计算 的 复 和 度 具有 很 强 的 影响 。 

可 以 通过 假设 对 于 典型 的 小 型 增强 现实 工作 空间 ， 所 有 光源 都 处 在 a 遥远 
ae ee SRE CULL 6.11 )。 当 光源 仅 为 太阳 光 或 天 花 板 灯 时 ， 这 种 假设 是 合理 的 ， 但 不 适 

台灯 或 师 烛 。 远 距离 光源 的 限制 极 大 地 简化 了 光照 计算 

" TANN 化 的 重要 性 ， 首 先 讨 论 局 部 照明 和 全 局 照明 。 局 部 照明 仅仅 考虑 光线 从 光源 
传播 到 场景 中 的 表面 ， 与 之 相对 ， 全 局 照明 也 会 考虑 光线 与 场景 中 其 他 物体 复杂 的 交互 作 
用 。 因 此 ， 全 局 照明 自然 会 产生 反射 、 折 射 以 及 阴影 等 。 例 如 ， 软 阴影 来 自 多 个 不 同方 向 的 
光线 照射 ， 其 中 有 些 光 线 被 遮挡 ， 而 其 他 光线 没有 被 遮挡 。 根 据 反 射 物体 的 材质 不 同 ， 全 局 
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光照 也 能 够 产生 反射 : 有 光泽 的 物体 产生 镜面 反射 ， 亚 光 物 体 产 生 漫 反 射 。 因 为 可 以 忽略 反 
AULA IT E, RN CREAT) 的 反射 较 容 易 计 算 。 
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虚拟 物体 真实 物体 的 幻影 


图 6.11 仪 在 本 地 真实 场景 中 考虑 虚拟 和 真实 物体 之 间 多 种 光线 的 交互 作用 ， 远 距离 场 


景 只 发 送 光线 


由 于 局 部 场景 并 不 包括 任何 光源 ， 远 距离 光源 的 假设 限制 了 光照 计算 的 需要 。 首 先 ， 所 
有 入射 光线 可 建 模 为 定向 光 并 存储 在 一 个 二 维 表 (环境 贴图 [Blinn and Newell 1976] 中 )， 仅 
通过 方向 而 不 是 通过 场景 中 的 位 置 进行 检索 LR 6.12 )， 即 场景 中 表面 一 点 接收 到 的 光线 
被 假设 与 点 的 位 置 无 天 。 其 次 ， 不 需要 计算 离开 场景 的 光线 。 根 据 光 源 的 定义 ， 仅 仅 当 光线 
离开 场景 后 再 被 反射 回来 时 是 相关 的 。 与 此 相反 ， 从 场景 外 远 距 离 物 体 反 射 而 来 的 光线 和 环 
境 贴 图 的 光源 共同 被 编码 。 再 者 ， 考 虑 到 遥远 区 域 光 源 产 生硬 阴影 的 场景 很 少见 ， 远 距离 光 
源 通常 被 限制 在 低频 段 。 





图 6.12 ”环境 贴图 足以 表示 物体 从 周围 环境 接收 到 的 光照 


6.3.1 基于 图 像 的 光照 


为 了 将 环境 贴图 应 用 于 基于 图 像 的 光照 ， 通 笛 需 要 使 用 高 动态 范围 (HDR), HDR 指 的 
是 用 浮 点 精度 的 有 效 物理 单位 表示 环境 贴图 的 亮度 ， 而 不 是 采用 任意 固定 精度 的 数值 。 如 果 
环境 贴图 表示 从 观察 者 视点 的 入 射 光 (辐射 ) 则 被 称 作 辐射 图 。 已 经 预先 与 合适 内 核 进行 卷 
积 直 接 表 示 反 射 后 出 射 光 《〈 辐 照 ) 的 贴图 被 称 作 辐 照 图 。 

利用 辐射 图 可 以 实现 场景 中 虚拟 物体 的 基于 图 像 的 光照 ， 其 最 简单 的 形式 是 基于 图 像 的 
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光照 仅 被 用 作 局 部 光照 ， 即 只 考虑 场景 中 光线 从 光源 到 表面 点 的 传播 。 在 这 种 情况 下 ， 不 考 


虑 全 局 照明 的 作用 ， 例 如 间接 光 的 反射 或 场景 中 其 他 物体 的 阴影 。 在 辐射 图 中 ， 发 射 光源 和 
远 处 环境 表面 反射 的 共同 作用 仍然 能 产生 令 人 瞩目 的 结果 ( 见 图 6.13 )。 





图 6.13 基于 图 像 光 照 的 两 个 例子 ， 两 种 照明 条 件 下 水 果盘 的 辐射 图 (由 Thomas 
Richter-Trummer 提供 ) 


自 个 正确 地 将 被 照明 的 虚拟 物体 和 数字 图 像 进 行 结合 的 工作 由 Nakamae 等 人 [1986] 提 
出 。 这 项 早期 工作 旨 在 将 建筑 物 琶 加 在 户外 场景 的 静态 图 片 中 。 辐 射 能 够 通过 已 知 的 太阳 位 
置 进行 精确 的 计算 ， 从 而 不 需要 存储 在 环境 图 中 。 

20 世纪 90 年 代 出 现 了 真正 的 基于 图 像 的 光照 方法 。 例 如 ，State 等 人 [1996a] ÆR T R 
用 一 个 铬 球体 反射 通过 球形 纹理 映射 实现 的 实时 光照 。Debevec[1998] 介绍 了 一 种 HDR 和 
差分 演 染 驱动 的 基于 图 像 的 光照 方法 〈 后 文 详 述 )。S$ato 等 人 [1999] 采用 周 视 立体 相机 进行 
立体 重建 ， 利 用 不 同 快门 速度 获得 一 系列 周 视 图 像 ， 在 获得 环境 的 组 合 几何 和 辐射 图 后 ， 利 
用 光线 追踪 计算 真实 光照 。 


Agusanto 等 人 [2003] 利用 辐射 图 在 虚拟 物体 上 产生 高 光 反 射 。Pessoa 等 人 [2010] 实现 了 特 
定 物 体 独 立 环境 图 的 动态 泻 染 。 这 些 合成 环境 图 不 仅 包含 环境 光 ， 还 包括 了 其 他 虚拟 物体 的 
反射 光 。Meilland 等 人 [2013] 提出 了 类 似 的 想法 ， 利 用 真实 场景 的 光 场 表示 合成 了 每 个 对 
象 的 环境 图 。 


6.3.2 XR T 

辐射 图 可 以 通过 光 探 针 有 效 地 获取 ， 这 可 以 通过 被 动 光 探 针 (用 一 个 摄像 机 拍摄 放置 在 
场景 中 的 一 个 反射 ”凝视 物体 ”) 或 者 主动 光 探 针 (摄像 机 放置 在 场景 中 或 场景 附近 ) 的 形 
式 实 现 。 其 目的 是 获取 辐射 的 全 向 表示 ， 因 此 需要 选用 能 够 提供 大 视 场 角 的 光 探 针 。 

锌 动 光 探 针 经 稼 采 用 反射 球 ( 见 图 6.14) 作为 凝视 物体 。 球 体能 够 提供 300° 的 水 平视 
场 角 并 能 够 通过 珊 有 传统 镜头 的 摄像 机 进行 拍摄 。 直 接 放 置 在 场景 中 的 摄像 机 需要 特殊 的 鱼 
眼镜 头 。 

光 探 针 的 典型 目标 是 获得 高 动态 范围 图 像 。Debevec 和 Malik[1997] 描述 了 在 标定 摄像 
机 的 非 线 性 曝光 啊 应 函数 后 ， 如 何 从 一 系列 持续 增加 曝光 时 间 的 静态 图 像 中 快速 计算 高 动态 
范围 图 像 。 近 年 来 ,已 经 出 现 了 通过 硬件 计算 高 动态 范围 图 像 的 摄像 机 ， 这 在 很 大 程度 上 组 
解 了 这 项 应 用 的 挑战 。 

在 人 鲁 件 支持 的 球形 环境 图 上 ,球形 凝视 物体 的 图 像 能 直接 用 于 环境 贴图 [State et al. 
1996a]。 由 于 视角 独立 ， 近 年 来 立方 体 环境 图 的 使 用 更 加 普遍 ， 尽 管 这 要 求 对 光 探 针 获 得 的 
源 图 像 进 行 重 新 采样 。 
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a) b) 


图 6.14 a) 通过 漫 反 射 球 和 镜面 球 捕 捉 真 实 世 界 光 照 的 光 探 针 。b) Point Grey Ladybug 
全 景 相 机 能 够 作为 主动 光 探 针 (由 Lukas Gruber 提供 ) 


凝视 物体 的 材质 取决 于 应 用 场景 。 最 第 应 用 的 是 记录 高 光 反 射 的 类 镜面 材质 ， 如 市 有 铬 
涂 层 的 金属 [Debevec 1998] [Agusanto et al. 2003]。 为 了 记录 高 动态 范围 图 像 ， 必须 采用 高 
光 材 质 。Kanbara 和 Yokoya[2004] 采用 涂 黑 的 镜面 球 记 录 强 光源 并 滤 掉 低频 光照 。 该 球面 
上 带 有 标志 点 ， 从 而 可 以 实时 识别 图 像 中 的 凝视 物体 。Aittala[2010] 采用 漫 反 射 球 (乒乓 球 ) 
获取 漫 反 射 光照 ， 并 利用 简单 的 循环 检测 提取 球形 图 像 。 

一 些 研 究 人 员 利 用 局 平 物体 作为 温 反 射 光 探 针 。 例 如 ，Aittala[2010] 提出 凝视 物体 也 可 
以 作为 基准 标志 点 ， 从 而 可 以 更 容易 地 利用 现 有 的 标志 兵 ee 进行 检测 。Pilet 等 人 
[2006] 采用 已 知 纹理 的 平面 物体 ， 可 以 很 容易 地 被 跟踪 到 ( 见 图 6.15 )。 当 用 户 移 动物 体 时 ， 
在 跟踪 日 标的 法 线 方 呵 进行 辐 照 采样 。 考 虑 到 被 跟踪 物体 可 以 和 场景 进行 实时 交互 且 不 需要 
被 移 除 ， 因 此 在 光照 改变 时 可 以 用 来 递增 地 更 新 辐射 图 。 





图 6.15 寓 有 纹理 的 正方 形 等 平面 跟踪 物体 可 以 用 作 简 单 的 沦 探 针 以 估算 主 光 照 方 回 。 
虚拟 物体 可 以 县 有 写实 的 明 瞳 和 阴影 (由 Julien Pilet, Andreas Geiger, Pascal 
Lagger、Vincent Lepetit 和 Pascal Fua 提供 ) 


Pilet 等 人 [2006] 和 Alttala[2010] 征 接 通过 观察 到 的 凝视 物体 计算 光照 。 他 们 计算 了 一 
系列 点 光源 并 进而 获取 了 高 光亮 点 和 投射 阴影 等 效果 。 此 外 ，Aittala 将 没有 被 光源 显 式 捕获 
的 剩余 能 量 投射 到 用 来 表示 周围 光照 的 环境 图 中 。 

与 被 动 光 探 针 不 同 ， 主 动 光 探 针 可 以 直接 获取 环境 图 。 通 过 将 带 有 鱼 眼 镜头 的 相机 或 者 
全 景 反 射 镜 直 接 放 置 在 场景 中 ， 可 以 同时 获得 全 加 图 像 [Sato et al. 1999], 一 些 应 用 在 运行 
时 人 允许 在 场景 中 持续 放置 全 景 相 机 ， 全 景 相 机 应 尽 可 能 靠近 场景 ， 但 要 在 提供 增强 现实 视 
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频 反 馈 的 摄像 机 视 场 角 之 外 [Supan et al. 2006] [Grosch et al. 2007] [Knecht et al. 2010] [Kan 
and Kaufmann 2012a]。 采 用 特殊 的 高 动态 相机 能 人 够 动态 地 为 应 用 提供 高 动态 范围 环境 光照 。 


6.3.3 ”离线 光照 采集 


如 果 预 处 理 是 可 以 接受 的 ， 可 以 使 用 传统 的 多 图 像 拼 接 来 采集 环境 图 [Szeliski 2006]。 
拼接 也 可 以 实时 进行 [DiVerdi et al. 2008] [Wagner et al. 2010]， 但 不 能 保证 覆盖 用 户 所 有 可 
能 的 视线 方向 。 

环境 图 是 一 个 二 维 光 场 的 实例 : 描述 了 光线 从 任意 方 问 到 达 单 点 的 强度 或 颜色 。 在 还 病 
光源 的 假设 下 ， 这 对 于 整个 场景 几乎 都 是 有 效 的 。 然 而 ， 在 更 大 的 场景 中 ， 位 置信 息 不 能 忽 
略 。 在 这 种 情况 下 ， 可 以 使 用 五 维 光 场 为 空间 中 多 个 三 维 位 置 存储 独立 的 环境 图 [Low et al. 
2009]。 很 明显 ， 这 种 方法 要 消耗 大 量 的 存储 空间 。 

四 维 光 场 能 提供 给 定 二 维 表面 上 位 置 的 二 维 环境 图 ， 可 以 在 覆盖 和 存储 的 需求 之 间 折 
中 。Meilland 等 人 [2013] 利用 深度 相机 SLAM (RGB-D SLAM) 系统 采集 这 样 的 光 场 ， 他 
们 采用 深度 数据 配 准 重 释 关 键 帧 ， 使 用 每 个 表面 点 的 匈 余 观察 值 计算 所 有 关键 帧 的 上 曝光 和 高 
动态 范围 值 。 结 果 可 以 被 解释 为 合成 环境 图 所 需 的 非 结 构 化 的 流明 图 [Buehler et al. 2001]。 


6.3.4 基于 静止 图 像 的 光度 注册 


对 于 许多 实际 的 增强 现实 应 用 ， 使 用 光 探 针 或 者 离线 采集 都 过 于 复杂 。 在 理想 情况 下 ， 
我 们 硕 望 能 够 仅 从 单 张 图 片 或 视频 帧 中 恢复 人 射 光 照 。 这 是 一 个 经 典 的 计算 机 视觉 问题 ， 最 
早 可 以 追溯 到 Land 等 [1971] 提出 的 Retinex 算法 ， 该 算法 基于 光照 在 图 像 空 间 的 频率 比 表 
面 纹理 更 低 的 假设 。 很 明显 ，Retinex 方法 面临 的 问题 是 单 张 图 像 包 含 的 信息 不 足以 在 任意 
场景 下 自动 地 恢复 光照 。 因 此 ， 使 用 了 许多 形式 的 额外 信息 来 推导 几何 先 验 数据 ， 以 便 有 助 
于 将 图 像 分 解 为 光照 和 表面 纹理 [Barron and Malik 2015]. 

一 些 方法 依赖 于 用 户 输 入 。 例 如 ， 用 户 能 够 交互 地 识别 表面 和 光源 ， 从 而 使 得 系统 可 以 
恢复 场景 中 光照 和 位 置 都 可 信 的 虚拟 物体 [Karsch et al. 2011]。 通 过 众 包 用 户 标 注 可 以 在 图 
像 数 据 库 [Bell et al. 2014] 中 收集 来 指导 图 像 分 解 。 

带 有 深度 信息 的 图 像 也 提供 了 由 可 以 推出 观察 图 像 的 几何 先 验 信息 [Chen and Koltun 
2013] [Lee et al. 2012]。 如 果 没 有 深度 通道 ， 可 以 通过 匹配 数据 库 到 图 像 中 物体 的 三 维 模型 
来 获得 几何 先 验 信息 ， 从 这 些 几 何 信息 中 可 以 推出 漫 反射 [Kholgade et al. 2014]。 深 度 和 光 
照 估 计 也 可 以 通过 分 别 与 深度 图 像 数 据 库 和 环境 图 进行 匹配 得 到 [Karsch et al. 2014]. 

预先 获得 几何 先 验 信息 的 另 一 种 方法 是 检测 物体 的 轮廓 [Lopez-Moreno et al. 2013]. # 
廓 提供 了 一 个 估算 其 表面 向量 的 良好 线索 ， 能 够 用 来 追溯 光源 的 位 置 。 

这 些 方 法 提供 了 令 人 印象 深刻 的 结果 ,但 是 它们 都 是 为 单 张 图 像 光照 恢复 而 设计 的 ， 需 
要 额外 的 处 理 。 在 增强 现实 中 ， 与 单 张 图 像 不 同 ， 我们 通常 是 在 视频 序列 上 进行 处 理 ， 因 此 
需要 下 节 讨 论 的 保证 时 间 相干 性 的 实时 方法 。 


6.3.5 ”基于 镜面 反射 的 光度 注册 


在 观察 已 知 物体 的 高 光 反 射 时 ， 人 允许 直接 从 反射 方 回 估计 和 人 射 光 ， 该 原理 不 仅 可 以 用 于 
光 探 针 ， 也 可 以 用 于 场景 中 任意 形状 已 知 的 高 光 物 体 。 
例如 ，Tsumura 等 人 [2003] 以 及 Nishino 和 Nayar[2004] 利用 人 眼 反 射 作为 自然 的 光 探 


FA Gt, — I Pt 143 


tf. Laager 和 Fua[2006] 在 小 的 运动 物体 上 检测 高 光 反 射 。Hara 等 人 [2003, 2008] 在 假设 没 
有 远 点 光源 的 情况 下 利用 单 张 图 像 估算 光源 位 置 和 反射 参数 。Mashita 等 人 [2013] 通过 检测 
平面 物体 的 高 光 反 射 推 新 真实 环境 光照 。 
ed ro Tat phlei: sei 这 些 研 究 者 假 
没 冰 反 射 变化 仅 与 位 置 有 关 而 与 观察 角度 无 关 ， 而 高 光 反 射 变化 仅 与 观察 方向 有 关 而 与 位 置 
ER., Am enha eee hey 高 光 反 射 用 于 重建 环境 图 ， 漫 反射 用 
于 颜色 扩散 效果 。 


6.36 ”基于 漫 反 射 的 光度 注册 


如 末 无 法 确定 场景 中 的 高 光 反 射 ， 可 以 符 试 进行 漫 反 射 光 度 注 册 的 计算 。 漫 反射 表面 更 
为 普 明 一 一 特别 是 在 室内 场景 。 因 为 必须 分 离 各 个 方 回 的 光照 贡献 ， 从 这 样 的 表面 恢复 人 射 
光 是 更 难 的 反 渲染 问题 ,通常 只 估计 单个 主 光 源 的 方向 。 

自 个 能 够 利用 场景 几何 目 动 估计 单 个 十 点 光源 和 环境 光 的 系统 是 Stauder[1999] 开发 的 
视频 会 议 系统 。 该 系统 通过 从 育 景 分 割 佑 计 椭 圆 几 何 模 型 来 进行 定 问 光 估计 。 

一 种 更 加 数学 连续 的 存储 定 回 光照 的 方法 由 球 谐 (SH) 也 数 提供 ， 通 过 一 系列 基 哨 数 的 
线性 组 合 来 表示 一 个 球面 上 所 有 可 能 方 回 的 二 维 图 数 [Ramamoorthi and Hanrahan 2001]。 通 
贡 仅 仅 存 储 低频 表述 就 足够 了， 对 于 每 个 缓存 带 仅 仪 通过 几 个 (如 9、16 或 25 ) 数值 系数 就 
能 侯 压 缩 至 球 请 函数 形式 (JILE 6.16 )。 此 外 ， 漫 反映 光 传播 能 够 双 不 费力 地 通过 球 谐 消 数 
形式 进行 计算 [Sloan et al. 2002] 并 存储 在 表面 纹理 图 中 (如 每 个 三 角形 网 格 的 顶点 )， 





图 6.16 球 诲 图 数 是 球形 域 中 的 基 图 数 。 三 行 代表 了 球 谐 果 数 的 0,1,2 波段 ( 见 彩 插 ) 


Gruber 等 人 [2012] 的 人 研究 表明 球 谐 函数 框架 能 够 利用 彩色 深度 相机 实时 恢复 真实 志 界 
光照 ( 见 图 6.17 ) 。 这 些 研究 人 员 通 过 深度 图 像 重 建 场 景 ， 他 们 假设 只 有 漫 反 射 ， 通 过 从 重 
建 表面 选 定 的 采样 点 在 球 谐 函数 形 式 下 计算 了 入 射 定向 光 。 这 些 采 样 点 必须 具有 和 良好 的 表面 
法 线 分 布 。 由 于 漫 反 射 会 聚 各 个 方 回 的 光 ， 对 于 每 个 采样 点 必须 计算 场景 中 其 他 物体 形成 
的 阴影 。 通 过 图 像 空间 最 优化 [Gruber et al. 2015]， 这 样 的 系统 能 够 在 台式 机 GPU 上 以 每 秒 
20 帧 估计 动态 真实 物体 的 动态 人 射 光 和 投射 阴影 。 

Boom 等 人 [2013] 提出 了 一 种 从 任意 场景 几何 中 合计 单 点 光源 的 系统 。 他 们 假设 整个 场 
Rabe, CATR RAR (MER) AE, 通过 颜色 将 图 像 分 割 为 超 像素 ， 已 知 
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反射 比 ， 就 可 以 合理 精度 恢复 光源 。 


王 


-二 = 











图 6.17 利用 教堂 模型 等 温 反 射 物体 能 够 估计 定向 光 ， 并 应 用 到 白 球 等 虚拟 物体 。 右 面 
的 列 显 示 了 作为 立方 图 的 人 射 光 估计 。 通 过 环境 图 中 的 红 点 表示 如 何 改变 最 强 
的 光照 方向 ， 对 应 圆 顶 上 白色 高 光 的 运动 (由 Lukas Gruber 提供 ， 见 彩 插 ) 


Knorr 和 Kurz[2014] 通过 人 脸 估 算 和 人 射 光 ， 该 方法 使 用 离线 机 需 学 习 不 同 光 照 条 件 下 各 
种 各 样 的 脸 部 。 在 线 方法 应 用 面部 跟踪 ， 将 检测 到 的 脸 部 的 特征 观察 点 和 训练 数据 库 中 的 进 
行 死 配 以 通过 球 谐 明 数 估 算 真实 环境 光照 。 


6.3.7 基于 阴影 的 光度 注册 


男 外 一 种 估算 光源 的 方法 是 观察 
图 像 中 的 阴影 。 该 方法 主要 基于 阴影 
投射 几何 的 全 部 或 者 部 分 信息 以 及 图 
像 中 阴影 形状 的 正确 分 类 及 测量 。 实 
际 上 ， 这 和 意味 春 检测 图 像 中 的 阴影 和 
轮廓 。 轮 廓 上 的 表面 点 可 以 回溯 到 阴 
影 投射 物体 的 几何 边界 ， 这 也 应 该 是 
可 见 的 。 进 而 ， 可 以 估计 一 个 或 者 多 
个 光源 的 方向 ( 见 图 6.18 )。 例 如 ， 
Hartmann 等 人 [2003] 利用 了 一 个 称 
为 “阴影 捕捉 人 ”市 有 特殊 几何 特性 
的 光 探 针 ， 能 够 可 靠 地 从 任意 方 回 捕 
捉 阴 影 。 在 目 然 图 像 中 检测 阴影 通 





图 6.18 ”通过 将 阴影 轮廓 上 一 个 唯一 点 到 对 应 的 投射 阴 
影 表 面 上 的 点 形成 射线 ， 可 以 估计 光源 的 方向 


ts BAA PEAKE [Wang and Samaras 2006] [Ikeda et al. 2012] [Arief et al. 2012] [Okabe et al. 
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2004] [Mei et al. 2009]. 


6.3.8 室外 光度 注册 

在 户外 增强 现实 场景 中 ， 通 稼 无 法 获得 场景 的 完整 几何 模型 ， 这 使 得 光度 注册 更 加 困 
ME. SAI, fal PASE AB Be By EE AOR PAG ee Be I SETTER. FEC AIM 
则 日 斯 和 地 理 位 置 之 后 ， 太 阳 的 分 析 模 型 可 以 用 作 初 始 估 计 值 [Nakamae et al. 1986] [Madsen 
and Nielsen 2008] [Liu and Granier 2012]。 天 空 可 以 近似 为 次 级 大 范围 光源 ， 可 以 利用 图 像 
中 的 阴影 线索 来 对 结果 进行 改进 [Cao and Shah 2005] [Cao and Foroosh 2007]。 


6.3.9 重建 精确 光源 


从 环境 图 再 继续 前 进一步 的 全 局 光照 效果 通 稼 需要 精确 的 光源 位 置 而 不 是 定 回 辐射 ( 见 
图 6.19 ) 。 我 们 可 以 通过 假设 光源 位 于 固定 的 远离 场景 中 心 的 位 置 将 辐射 图 中 每 个 像素 r 
加) 转换 为 精确 光源 。 然 而 ， 对 于 高 分 辨识 辐 轴 图 ， 光 源 的 数量 可 能 过 多 、 





图 6.19 ”通过 将 环境 图 细 分 为 等 辐射 区 域 并 检测 每 个 区 域 中 的 代表 点 可 以 估算 精确 光源 
(由 Lukas Gruber 提供 ) 


限制 光源 数量 的 一 种 方法 是 对 辐射 图 做 有 规律 的 下 采样 [Supan et al. 2006]. fa Bix 
法 ， 细 分 后 将 包含 在 环境 图 一 个 区 域内 的 像素 平均 并 被 位 于 该 区 域 中 点 处 的 光源 代 奉 ， 其 强 
度 与 平均 像素 值 成 正比 。 这 种 方法 可 以 产生 固定 数量 的 光源 ， 但 是 没有 考虑 环境 中 光源 的 不 
均匀 分 布 。 

更 成 熟 的 方法 依赖 于 自 适 应 细 分 [Debevec 2005]。 环 境 图 沿 着 最 长 轴 被 递归 地 细 分 ， 从 
而 生成 的 区 域 具有 近似 相等 的 辐射 。 重 复 该 过 程 直到 区 域 的 数量 达到 需要 的 数值 ， 最 终 估算 
前 述 每 个 区 域 的 光源 。 


6.4 ”通用 光照 


建立 了 真实 场景 、 虚 拟 场 景 和 入 射 光 模型 之 后 ， 就 可 以 根据 真实 世界 的 光照 环境 计算 出 
虚拟 和 真实 物体 之 间 的 通用 光照 。 我 们 首先 讨论 涉及 的 光线 传播 。 

直接 光照 描述 的 是 光线 从 光源 直接 传播 到 物体 ， 然 后 再 反射 人 观察 者 眼中 。 间 接 光 有 照 摘 
述 的 是 光线 从 第 一 个 物体 反射 到 第 二 个 物体 ， 光 线 不 断 反 射 并 最 终 到 达观 察 者 眼中 。 如 采光 
线 由 于 被 另 一 个 离 光 源 更 近 的 物体 反射 而 没有 到 达 第 一 个 物体 ， 则 第 二 个 物体 投射 阴影 。 完 
整 的 全 局 光照 仿真 涉及 很 多 物体 之 间 光 线 的 反射 ， 尽 管 间接 光照 通常 要 远 弱 于 下 接 光照 ， 但 
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是 间接 光照 对 写实 效果 贡献 巨大 一 一 特别 是 室内 环境 并 不 是 直接 由 太阳 照明 的 。 

前 述 的 第 一 个 和 第 二 个 物体 都 可 以 是 虚拟 或 者 趴 实 的 。 这 意味 着 有 四 种 可 能 的 组 合 : A 
实 到 真实 、 真 实 到 虚拟 、 虚 拟 到 真实 、 虚 拟 到 虚拟 。 在 这 些 组 合 中 只 有 真实 到 真实 的 情况 可 
以 通过 视频 图 像 直接 得 到 ; 其 他 三 种 涉及 虚拟 物体 的 组 合 必须 通过 光照 仿真 进行 计算 。 这 包 
括 虚 拟 到 真实 的 组 合 ， 可 能 仅仅 导致 真实 物体 的 细微 变化 。 

真实 物体 和 虚拟 物体 的 混合 基于 接 下 来 描述 的 差分 泻 染 ， 然 后 介绍 全 局 光照 的 原理 和 
方法 。 


6.4.1 差分 泻 染 


即使 进行 了 精心 的 光度 注册 ， 由 于 几乎 不 可 能 充分 考虑 到 场景 中 光线 的 所 有 交互 ， 通 用 
光照 不 可 能 总 是 完美 的 。 尽 管 如 此 ， 我 们 至 少 应 该 保持 真实 场景 摄像 机 图 像 自 然 呈 现 的 细微 
光照 效果 ， 即 使 这 些 效果 并 没有 延续 到 场景 中 的 虚拟 部 分 。 人 允许 保留 真实 世界 光照 效果 的 处 
理 过 程 称 为 差分 泻 染 ， 由 Fournier 等 人 [1993] 首次 提出 ， 本 书 使 用 Devevec[1998] 提出 的 差 
分 泻 染 公式 。 

在 给 定 场景 的 几何 和 材质 以 及 相机 参数 和 光源 后 ， 可 以 计算 对 应 原始 场景 ( 即 没有 任何 
虚拟 物体 ) 的 光照 仿真 Ln。。 在 场景 描述 中 加 入 虚拟 物体 后 ， 可 以 计算 第 二 个 光照 仿真 Lev, 
代表 场景 中 包含 虚拟 和 真实 物体 。 所 有 显示 虚拟 物体 的 像素 能 够 用 Ley 来 代替 。 对 于 所 有 
显示 真实 物体 的 像素 ， 差 值 La,y-Lr 代表 加 入 虚拟 物体 后 场景 中 真实 部 分 的 光照 变化 ， 这 一 
差 值 作为 相机 图 像 Le 的 修正 值 加 入 〈 见 图 6.20 )。 

© 对 于 显示 虚拟 物体 的 像素 : Zi = Zaive 

bd 对 于 显示 真实 物体 的 像素 : Lana = LotLpiy—Lpo 





图 6.20 ”差分 泻 染 结合 新 添加 虚拟 物体 的 光线 贡献 ， 通 过 物理 场景 二 的 虚拟 表示 和 动 
态 视频 输入 进行 计算 (由 Peter Kan 提供 ) 


代表 显示 真实 物体 的 像素 的 公式 可 以 解释 为 通过 在 仿真 结果 Levy 上 登 加 误差 项 Lc-Lr 来 
校正 原始 场景 Lc 模型 Le 中 的 误差 。 被 虚拟 物体 间接 照明 的 像素 将 变 亮 (Lev-Lr WIE), BK 
虚拟 物体 投射 阴影 的 像素 将 变 瞳 (Lyle 为 负 )。 

如 果 在 场景 改变 时 允许 重光 照 则 差分 演 娄 将 更 加 困难 ， 即 改变 的 是 光源 而 不 仅仅 是 场景 
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中 的 物体 。 特 别 是 删除 光源 将 会 导致 阴影 消失 ， 这 很 难 避 免 产 生 伪 影 。 与 之 相对 ， 由 于 光源 
可 以 线性 琶 加 ， 添 加 新 的 虚拟 光源 实际 上 可 以 很 好 地 操作 。 因 此 ， 下 节 介 绍 的 方法 通常 需要 
保持 真实 光照 不 变 或 者 将 其 限制 为 仅 添 加 数 个 次 级 光源 。 


6.4.2 ”实时 全 局 光照 


两 种 光线 仿真 均 需 要 通过 全 局 光照 方法 来 计算 差分 CULPA 6.21 )。 实 时 全 局 光照 面临 两 
个 主要 维度 的 复杂 度 。 
© 光线 传播 。 第 一 个 维度 和 被 仿真 的 光线 传播 类 型 有 关 。 因 为 仅仅 允许 删除 光源 ， 阴 
影 算法 是 最 简单 的 一 类 。 漫 反射 全 局 光照 允许 软 阴 影 和 颜色 扩散 ， 即 光线 从 具有 显 
著 颜 色 的 表面 反射 到 附近 的 物体 。 通 用 的 扩展 是 仅 为 选中 的 物体 添加 高 光 效 果 ( 反 
射 、 折 射 和 焦 散 )。 人 允许 整个 场景 的 任意 温 反 射 和 高 光 反 射 光 线 传播 是 最 为 复杂 的 。 


。 场景 。 当 静态 照明 下 的 静态 场景 中 只 有 相机 人 允许 移动 时 ， 所 有 的 光线 传播 都 能 被 计 
算 。 预 计算 能 够 克服 所 有 的 在 线性 能 问题 ， 但 是 可 能 需要 额外 的 计算 资源 和 内 存 ， 
特别 是 如 果 要 支持 高 光 效果 的 话 。 在 场景 中 有 动态 物体 时 ， 至 少 需要 计算 每 一 帧 中 
这 些 物体 对 光线 传播 的 影响 。 既 有 动态 物体 又 有 动态 光源 的 场景 的 计算 量 是 最 大 的 。 
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a) 局 部 光照 演 染 效果 b) 全 局 光照 泻 染 效果 


图 6.21 实时 路 径 跟 踪 能 实现 真实 的 全 局 光照 (由 Peter Kan 提供 ， 见 彩 插 ) 


这 两 个 维度 和 场景 的 尺寸 决定 了 全 局 光照 的 计算 量 。 拥 有 复杂 光线 传播 特性 的 大 型 动态 
场景 的 实时 更 新 即使 采用 高 性 能 工作 站 仍然 十 分 困难 ， 更 不 用 说 在 移动 计算 机 上 。 为 了 使 全 
局 光照 更 易 处 理 ， 大 多 数 同期 的 全 局 光照 方法 引入 因 式 分 解 来 进行 两 步 泻 染 。 第 一 步 泻 染 在 
场景 中 计算 光线 传播 ， 第 二 步 泻 染 收集 光 分 布 的 信息 来 形成 最 终 的 图 像 。 这 种 分 步 泻 染 具 有 
以 下 优点 。 

第 一 ， 可 以 为 每 个 泻 染 步骤 独立 选择 光线 传播 类 型 。 例 如 ， 第 一 步 仅 能 模拟 从 光源 发 出 
的 散射 光 传 播 ， 而 第 二 步 能 够 通过 集成 高 光 效 果 来 提升 主观 视 党 的 真实 感 〈 尽 管 不 是 所 有 可 
能 的 光线 传播 种 类 都 能 模拟 )。 由 于 第 一 步 与 视点 无 关 ， 因 此 这 种 处 理 非 常 方便 并 更 加 高 效 。 

第 二 ， 能 够 独立 地 为 每 一 个 过 程 选择 渔业 方法 。 例 如， 第 一 步 可 以 仅 针 对 限制 数量 的 光 
线 使 用 昂贵 的 光线 追踪 ， 而 第 二 步 可 以 使 用 更 高 效 的 GPU 着 色 需 进行 光栅 化 。 

第 三 ， 可 以 独立 地 为 每 一 步 选择 刷新 率 。 当 第 二 步 往 往 必须 以 高 帧 率 运 行 时 ， 第 一 步 可 
以 选择 低 刷 新 率 。 在 极端 情况 下 ， 第 一 步 可 以 针对 完全 静止 的 场景 进行 预计 算 。 即 使 必须 顾 
及 动态 物体 ， 第 一 步 也 可 以 运行 低 于 第 二 步 的 频率 ,或 者 第 一 步 采 用 懒惰 更 新 策略 ， 即 只 有 
当场 景 变化 时 才 传 递 更 新 。 
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连接 两 个 步骤 的 数据 结构 决定 了 第 二 步 用 到 的 方法 和 取得 的 效果 。 如 果 从 第 一 步 得 到 的 结 
果 是 多 帧 分 摊 的 ， 取 决 于 储存 的 光照 是 出 射 还 是 人 射 ， 结 果 数 据 结 构 有 时 被 称 为 辐射 缓存 或 辐 
照 缓存 [Ward et al. 1988]。 绥 存 必 须 能 应 答 关 于 场景 中 特定 三 维 点 和 特定 二 维 方 回 光 照 的 问 询 。 
与 光 场 类 似 ， 由 于 该 技术 占用 大 量 的 缓存 ， 因 此 出 现 了 各 种 各 样 的 下 采样 缓存 表示 。 

当 缓 存 仅 由 位 置 索引 时 ， 因 为 反射 方 问 是 不 相干 的 ， 结 果 组 织 适 用 于 表示 漫 反 射 传播 。 
许多 方法 使 用 这 种 纯粹 的 空间 组 织 方 案 。 人 例如， 光子 图 [Jensen 1995] 一 般 由 稀 朴 的 k-d 树 组 
成 。 阴 影 体 人 允许 查 阅 三 维 点 是 否 在 阴影 内 。 经 典 的 辐射 度 方 法 [Cohen et al. 1993] 存储 表面 
点 或 小 表面 块 的 辐射 。 

当 绥 存 仅 由 方向 索引 时 ， 结 果 组 织 是 环境 图 ， 通 稼 采用 立方 图 的 形式 ， 由 GPU 直接 文 
持 。 立 方 图 由 六 个 正方 形 纹理 组 成 ， 每 个 面 与 对 向 的 夹 角 为 90。。 用 于 基于 图 像 光 照 的 辐射 
图 是 仅 针对 定 癌 缓存 的 一 个 重要 应 用 。 

当 缓 存 由 投影 空间 索引 时 ， 从 给 定 视角 来 看 ， 它 由 与 2D 深度 图 条 目 相 关联 的 3D 位 置 
组 成 。 该 组 织 结合 了 位 置 和 方向 的 属性 。 深 度 图 仅 表 示 场 景 中 表面 点 的 一 个 子 集 ， 因 此 不 能 
作为 通用 缓存 。 然 而 ， 可 以 使 用 z 缓存 从 任意 场景 生成 GPU 上 的 深度 图 ， 并 使 用 阴影 映射 
人 硬件 进行 有 效 的 转换 。 即 时 辐射 图 [Keller 1997] 就 采用 了 这 种 方法 。 

如 果 需 要 同时 具有 位 置 和 方向 的 缓存 ， 则 位 置 通常 是 主 索 引 。 所 有 方向 的 信息 都 紧凑 
地 存储 在 缓存 条 目 中 。 辐 照 体 [Greger et al. 1998] 和 光 传 播 体 [Kaplanyan and Dachsbacher 
2010] 属于 这 一 类 别 ， 通 常 使 用 球 型 谐 波 表示 来 减少 内 存 需 求 。 

我 们 已 经 介绍 了 实时 全 局 光照 的 重要 概念 ， 这 些 概 念 将 应 用 于 和 常见 的 光照 问题 。 在 接 下 
来 的 讨论 中 ,我 们 将 逐渐 增加 光 传 播 的 复 森 性。 首先 在 场景 中 加 入 阴影 ， 然 后 是 漫 射 全 局 光 
照 ， 最 后 介绍 高 光 全 局 光照 。 


6.4.3 ”阴影 


阴影 是 显著 的 深度 线索 ,帮助 观察 者 理解 场景 的 三 维 结 构 。Sugano 等 人 [2003] 通过 用 
户 人 研究 确认 阴影 的 确 增加 了 增强 现实 场景 的 现实 感知 。 如 果 辐 时 计算 反射 和 阴影 的 成 本 太 
高 ， 仅 需要 计算 阴影 是 一 个 有 吸引 力 的 选项 。 首 先 计算 阴 影 表 示 ， 然 后 通过 最 终 图 像 中 表面 
点 的 明暗 来 参考 该 表示 。 已 经 出 现 了 许多 阴影 技术 [Eisemann et al. 2011]， 其 中 的 创始 技术 
是 阴影 体 [Crow 1977] 和 阴影 贴图 [Williams 1978]。 

阴影 体 是 一 个 平 截 头 体 ， 它 围绕 着 相对 给 定 的 阴影 投射 多 边 形 和 光源 的 阴影 区 物体 。 平 
截 头 体 的 侧面 称 为 阴影 体 多 边 形 。Everitt 和 Kilgard [2002] 的 阴影 体 技术 基于 模板 缓冲 区 ， 
这 是 现代 GPU 的 标准 特征 。 阴 影 体 技术 包含 四 个 步骤 ， 

1 ) 进行 无 照明 的 场景 绘制 (如 同 在 阴影 里 )。 

2 ) 通过 前 和 癌 阴影 体 多 边 形 的 光栅 化 增加 模板 缓冲 区 。 

3 ) 通过 背 问 阴影 体 多 边 形 的 光栅 化 减少 模板 缓冲 区 。 

4) 再 次 绘制 场景 ， 并 且 其 模板 缓冲 区 值 为 零 的 所 有 片段 都 不 在 阴影 区 ， 因 此 被 泻 染 了 照明。 

在 通用 光照 中 ， 不 仅 要 考虑 真实 物体 之 间 以 及 虚拟 物体 之 间 的 阴影 ， 还 要 考虑 从 真实 到 
虚拟 以 及 从 虚拟 到 真实 的 阴影 。 虽 然 真 实物 体 间 的 真实 光线 造成 的 阴影 在 视频 图 像 中 自然 可 
见 ， 并 且 使 用 前 面 提 到 的 标准 阴影 方法 之 一 很 容易 创建 虚拟 物体 之 间 的 阴影 ， 虚 拟 和 真实 之 
间 的 混合 阴影 交互 需要 特别 考量 。 

Haller 等 人 [2003] 改进 了 由 Everitt 和 Kilgard 开发 的 适用 于 通用 照明 的 方法 。 在 第 一 步 
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中 泻 染 从 虚拟 物体 到 真实 物体 的 阴影 。 在 第 二 步 中 泻 染 所 有 虚拟 对 象 ， 包 括 来 目 虚 拟 或 真实 
对 象 的 任何 接收 到 的 阴影 。 

在 使 用 视频 初始 化 帧 缓冲 区 之 后 ， 第 一 步 将 幻影 转换 成 z 缓存 。 虚 拟 物 体 的 阴影 体 被 给 
制 到 模板 缓冲 区 。 通 过 使 用 模板 缓冲 区 掩 模 ， 创 建 从 虚拟 物体 到 真实 物体 的 阴影 ， 这 可 以 通 
过 将 来 自视 频 的 所 有 通过 模板 掩 模 标 记 为 阴影 的 像素 与 黑色 透明 颜色 进行 混合 来 实现 ， 从 而 
可 以 创建 阴影 区 域 的 印象 。 

第 二 步 与 传统 的 基于 模板 的 阴影 体 演 染 类 似 。 包 括 虚 拟 对 象 和 幻影 对 象 在 内 的 整个 场景 
都 被 泻 染 到 彩色 缓冲 区 中 。 虚 拟 对 象 和 幻影 对 象 的 阴影 体 均 被 绘制 到 模板 缓冲 区 中 。 使 用 生 
成 的 模板 缓冲 区 作为 掩 模 ， 整 个 场景 再 次 被 绘制 为 环境 和 反射 部 分 ， 从 而 阴影 中 虚拟 物体 所 
在 的 区 域 在 场景 光照 下 显示 为 未 被 照明 ( 见 图 6.22 )。 
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图 6.22 ”阴影 体 算 法 通过 模板 缓冲 操作 计算 进入 但 没有 离开 阴影 体 视图 的 视线 来 确定 阴 
影 中 的 对 象 


因为 底层 投影 纹理 映射 在 GPU 上 完全 加 速 ， 大 多 数 现代 演 染 系统 建立 在 名 为 阴影 映射 的 
替代 技术 上 。 阴 影 映 射 是 一 种 两 步 技术 ， 首 先 从 光源 的 视角 泻 染 场景 的 深度 缓冲 区 ， 然 后 在 
第 二 步 中 使 用 该 阴影 图 ， 其 中 场景 从 观察 者 的 视点 进行 演 染 ， 以 确定 片段 是 否 被 光源 的 视点 
遮挡 ( 见 图 6.23 )。 如 果 光 源 坐标 中 的 片段 深度 大 于 阴影 贴图 中 的 数值 ， 则 片段 处 于 阴影 中 。 





a) b) 
图 6.23 a) 带 有 阴影 贴图 效果 的 虚拟 场景 。b) 从 光源 看 到 的 阴影 贴图 视图 ， 距 离 被 编 
人 码 为 灰 度 值 (由 Michael Kenzel 提供 ) 


State 等 人 [1996] 使 用 阴影 贴图 将 虚拟 物体 的 阴影 投射 到 真实 物体 。Gibson 等 人 [2003] 
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和 Supan 等 人 [2006] Hw NOCHE AIT HARE VARA. WR ee 
态 的 并 且 阴 影 接收 机 可 以 被 预先 确定 ， 这 种 用 于 创建 软 阴影 的 混合 方法 即使 在 动态 照明 改变 
时 也 可 以 被 预先 计算 [Kakuta et al. 2005]. 

如 果 虚 拟 到 真实 的 阴影 与 真实 到 真实 的 阴影 发 生 重 玲 ， 则 通过 混合 描述 虚拟 到 真实 物体 
投射 阴影 变 暗 像素 的 方法 无 法 正常 工作 。 已 经 目 然 变 黑 的 像素 会 因为 这 种 技术 而 变 得 更 暗 ， 
导致 阴影 印象 不 一 致 ， 这 个 被 称 为 双重 阴影 的 问题 ( 见 图 6.24) 是 省 略 半 全 局 光照 方法 的 绪 
果 ， 没 有 考虑 其 中 某 些 光照 对 象 交 互 (在 这 种 情况 下 为 遮挡 )。 
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双重 阴影 
图 6.24 简单 地 将 虚拟 树 的 虚拟 阴影 添加 到 已 经 在 真实 物体 (这 里 是 一 个 房屋 ) 阴影 中 


的 区 域 将 导致 不 正确 的 双重 阴影 


一 些 作者 通过 扩展 阴影 映射 方法 来 抑制 双重 阴影 。Jacobs 等 人 [2005] 建议 利用 模板 掩 模 
来 防止 真正 的 阴影 进一步 变 黑 。 该 掩 模 利 用 遮挡 的 幻影 和 光源 进行 几何 估计 ， 并 使 用 输入 图 
像 上 的 Canny 边缘 检测 器 来 进行 细 化 。Madsen 和 Laursen[2007] 提出 了 另外 一 种 避免 双重 
阴影 的 方法 。 他 们 基于 来 自 真实 光源 的 阴影 映射 采用 有 限 形式 的 逆 演 染 来 估计 表面 反照 率 。 
在 获得 反照 率 的 估计 值 后 ， 可 以 考虑 真实 和 虚拟 物体 阴影 的 影 啊 。 


6.4.4 漫 射 全 局 光照 

如 果 除 了 阴影 之 外 还 要 得 到 反射 的 效果 ， 则 需要 进行 完整 的 全 局 光照 仿真 。 采 取 这 种 方 
法 也 可 以 消除 双重 阴影 等 问题 。 本 节 专 往 于 提 射 光 传 输 的 全 局 光照 算法 。 

经 典 的 辐射 度 方法 将 场景 中 的 表面 变 成 离散 的 小 多 边 形 斑 块 并 解决 了 斑 块 之 间 的 光线 传输 
问题 。 虽 然 第 二 步 可 以 简单 地 泻 染 照 亮 的 斑 块 ， 但 第 一 步 需 要 在 大 量 斑 块 之 间 计 算 全 局 可 见 性 ， 
这 非常 耗费 计算 资源 。 因 此 ， 基 于 斑 块 的 辐射 度 很 少 用 在 当今 必须 处 理 动态 场景 的 实时 系统 中 。 

Fournier 等 人 [1993] 描述 了 第 一 个 模拟 常见 全 局 光照 的 辐射 度 方 法 应 用 。 这 项 早期 的 工 
作 不 是 针对 实时 性 能 的 ， 同 时 使 用 了 一 些 简化 的 假设 。 场 景 几何 通过 物体 边界 框 进行 估计 ， 
并 通过 人 工 估计 了 图 像 的 各 种 参数 ， 包 括 相 机 人 位置、 反射 率 和 光源 强度 等 。 后 续 的 改进 允许 
动态 物体 [Drettakis et al. 1997] 和 更 准确 的 光 传 输 [Loscos et al. 1999]. 

较 新 的 方法 的 目标 是 在 第 二 步 达 到 实时 性 能 。 一 种 广泛 使 用 的 方法 利用 阴影 映射 可 以 
Æ GPU 上 有 效 地 计算 直接 光照 这 一 事实 ， 而 间接 光照 可 以 通过 有 限 精度 进行 仿真 。 例 如 ， 
Grosch 等 人 [2007] 提出 将 间接 光照 存储 在 辐 照 体 中 。 在 第 一 步 中 ， 从 所 有 可 能 的 方 和 铝 到 更 
态 场 景 的 辐射 传输 被 预先 计算 并 与 球 型 谐 波 形式 的 一 组 基础 辐 照 体 相 结 合 。 在 第 二 步 中 使 用 
阴影 映射 来 计算 直接 光照 ， 而 间接 光照 通过 实际 光 强 度 加 权 的 基础 辐 照 体 的 总 和 获得 。 利 用 
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每 个 样本 的 阴影 映射 ， 可 以 计算 辐 照 体 的 贡献 。 

Nowrouzezahrai 等 人 [2011] 提出 了 一 种 利用 简单 实数 几何 的 场景 光 因 式 分 解 算法 。 他 
们 工作 的 关键 贡献 是 将 现实 世界 的 光照 分 为 直接 光照 和 间接 光照 。 通 过 从 基于 图 像 的 光照 中 
提取 点 光源 并 将 其 应 用 于 阴影 映射 来 处 理 直 接 光照 。 单 个 物体 的 辐射 传输 是 预先 计算 的 并 通 
过 球 型 谐 波 的 形式 表示 [Sloan et al. 2002]， 人 允许 其 与 同样 以 球 型 谐 波形 式 表示 的 间接 光照 进行 
有 效 组 合 。 动 画 物体 可 由 球体 的 集合 来 进行 近似 ， 这 使 得 它们 的 累积 辐射 能 够 被 快速 近似 。 

Knecht 等 人 [2010] 将 即时 辐射 与 差分 演 染 相 结合 。 即 时 辐射 通过 重复 硬件 阴影 映射 来 
计算 漫 射 全 局 光照 的 近似 值 。 在 第 一 步 中 ， 虚 拟 光 子 从 主 光 源 射 出 并 在 场景 中 反弹 。 光 子 撞 
击 表 面 点 时 会 产生 虚拟 点 光 (VPL)。 在 第 二 步 中 ， 通 过 聚集 VPL 照明 来 遮蔽 表面 点 。 通 过 
计算 每 个 VPL 的 单 张 阴影 贴图 可 以 加 速 会 聚 。Knecht 等 还 提出 了 一 种 称 为 差分 即时 辐射 的 
改进 方法 ， 其 中 每 个 光子 的 路 径 在 有 无 虚拟 对 象 的 情况 下 被 估计 两 次 。 这 种 方法 是 将 虚拟 对 
象 添加 到 场景 之 后 计算 光照 的 有 效 方 式 。 主 要 光源 可 以 被 附加 到 明确 已 知 的 光源 (例如 手电 
简 ) 或 者 是 用 主动 光 探 针 获 得 的 辐射 图 中 的 最 亮点 。 

Lensing 和 Broll [2012] 也 使 用 了 VPL 方法 ， 但 与 Knecht 等 人 [2010] 不 同 ， 他 们 在 应 
用 VPL 的 光照 时 使 用 纹理 融合 而 不 是 阴影 映射 。 他 们 主要 的 贡献 是 使 用 彩色 深度 相机 获得 
动态 移动 甚至 可 变形 的 真实 物体 的 几何 形状 ， 从 而 可 以 用 于 移动 的 真实 物体 。 因 为 在 计算 光 
照 时 深度 图 像 的 噪声 过 大 ， 所 以 他 们 用 导向 边缘 保持 滤 镜 来 平滑 深度 图 像 ， 从 而 具有 更 好 的 
表面 法 线 估计 。 在 当前 视野 之 外 没有 真实 世界 的 几何 信息 ， 所 有 的 光源 都 是 虚拟 的 ， 因 此 仅 
能 实现 向 场景 添加 虚拟 光照 的 效果 。 

Franke[2013] 提出 了 一 种 使 用 体 而 不 是 表面 取向 的 光 传 输 全 局 光照 方法 。 与 Grosch 等 
人 [2007] 使 用 的 辐 照 几何 体 不 同 ，Franke 使 用 光 传 播 体 [Kaplanyan and Dachsbacher 2010], 
即 代 表 辐 射 的 体积 。 在 计算 一 个 VPL 集合 并 将 每 个 VPL 贡献 注 和 人 由 球 型 谐 波 建 模 的 定向 辐 
射 的 小 体 后 ， 为 了 实现 差分 泻 染 ， 计 算 了 添加 虚拟 物体 之 前 和 之 后 光 传 播 的 差异 。 

Gruber 等 人 [2015] 描述 了 一 种 利用 彩色 深度 相机 的 具有 可 变形 实物 和 动态 光照 的 实时 
第 见 场景 光照 方法 (JLE 6.25 )。 他 们 的 流程 包括 三 个 步骤 : 几何 重建 、 光 度 注 册 和 全 局 光 
照 。 通 过 将 体重 建 与 图 像 空 间 深度 滤波 相 结 合 ， 该 方法 无 须 预先 计算 ， 即 可 应 用 于 大 型 场 
景 和 移动 对 象 。 在 屏幕 空间 中 使 用 定向 遮挡 的 差分 淀 染 变 体 来 计算 全 局 光照 [Ritschel et al. 
2009]。 全 局 光照 也 用 于 通过 球 型 谐 波形 式 的 反 泻 染 的 光度 配 准 [Gruber et al. 2012]. 
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图 6.25 a) 在 床下 面 的 龙 上 投射 的 软 阴 影 。b) 从 乒乓 球拍 到 漫画 人 物 的 脸 部 颜色 漫 射 。 在 
这 两 个 例 了 于 中， 真正 的 几何 和 光照 被 实时 重建 (由 Lukas Gruber 提供 ， 见 彩 捅 ) 
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645 ”镜面 全 局 光照 

上 一 节 中 描述 的 视点 无 关 方 法 的 主要 限制 是 不 允许 出 现 有 光泽 表面 (例如 金属 ) 和 半 透 
明 材 料 (例如 玻璃 ) 的 镜面 效应 。 这 些 效 应 可 以 通过 Knecht 等 人 [2013] 提出 的 将 高 光 扩 展 
到 差分 即时 辐射 来 实时 计算 。 遗 憾 的 是 ，Knecht 等 描述 的 光栅 化 方法 不 能 支持 散射 和 镜面 
光 传 输 的 任意 组 合 ， 达 到 这 样 的 目的 通常 需要 一 种 更 昂贵 的 基于 光线 跟踪 的 方法 。 

Grosch[2005] 提出 了 首 个 非 实 时 的 镜面 全 局 光照 方法 。 第 一 步 使 用 光子 映射 差 值 版 本 的 
光线 跟踪 。 表 面 可 以 分 为 漫 射 表面 和 镜面 表面 。 光 子 会 被 镜面 反射 或 折射 ， 但 存储 在 漫 反射 
面 上 。 如 果 一 个 光子 碰 到 一 个 虚拟 物体 ， 那 么 在 光子 应 该 碰 到 真实 物体 的 位 置 就 会 存储 负 光 
量 ( 反 辐射 )。 第 二 步 使 用 来 自 眼 睛 的 光线 跟踪 ， 从 而 可 以 产生 作用 于 真实 图 像 的 带 有 虚拟 
物体 反射 、 折 射 和 焦 散 的 最 终 图 像 。 

Kan 和 Kaufmann [2012a] 使 用 基于 实时 光线 跟踪 器 Optix 的 类 似 方 法 storage et 
al. 2010]. #1 Grosch 类 似 ， 他 们 在 这 两 步 中 使 用 光线 跟踪 ， 并 将 其 与 光子 映射 相 结 合 ( 
图 6.26 和 图 6.27 ) 。 然 而 ， 他 们 在 第 二 步 使 用 虚拟 和 真实 图 像 单独 的 阴影 光线 ， anos 
WIENE, Za, FZeo RRA R Ste ATK [Kan and Kaufmann 2013]. 
借助 这 种 技术 ， 第 二 步 通过 光线 跟踪 获得 直接 光照 ， 通 过 辐 照 缓存 计算 间接 光照 。 辐 射 度 是 
在 策略 选择 的 位 置 上 计算 的 ， 并 使 用 光栅 化 而 不 是 光线 跟踪 有 效 地 纹理 融合 到 屏幕 空间 。 





图 6.26 ”通过 实时 光线 跟 足 产生 的 真实 镜面 中 虚拟 和 真实 物体 的 镜面 反射 (由 Peter Kan 
提供 ) 





图 6.27 通过 实时 光线 追踪 计算 的 折射 使 用 户 的 手 通过 虚拟 玻璃 真实 地 呈现 (由 Peter 
Kan 提供 ) 
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Franke[2014] 的 delta 锥 体 跟踪 改进 了 他 以 前 在 delta 光 传 播 方 面 的 工作 ， 可 以 支持 任意 
光泽 或 漫 反 射 特 征 表 面 之 间 的 所 有 光 传 输 的 组 合 。 这 项 工作 将 光 传 播 体 与 锥 形 跟 踪 相 结合 。 
在 锥 形 跟 踩 中 ， 并 没有 通过 对 多 个 光线 平均 来 进行 屏幕 空间 中 像素 对 向 立体 角 的 滤波 ， 与 之 
代 符 的 是 通过 多 分 辨 率 辐射 体 投射 单个 光线 。 随 着 射线 距离 眼睛 越 来 越 远 ， 通 过 分 层 采 样 较 
粗 的 层次 来 隐 式 地 执行 滤波 。 这 项 工作 可 以 处 理 有 光泽 的 真实 物体 并 实时 演 染 台 真 的 图 像 ， 
但 光 传播 仍然 是 预先 计算 的 。 


6.5 消 隐 现实 

大 多 数 增强 现实 应 用 研究 在 真实 场景 中 添加 虚拟 物体 的 问题 ， 而 消 隐现 实 描述 了 相反 
的 概念 一 一 即 从 名 称 上 看 ， 从 真实 场景 中 无 痕迹 地 移 除 真实 物体 。 这 个 术语 是 由 Fung 和 
Mann[2004] 创造 的 ， 用 于 描述 通过 移 除 不 需要 的 物体 来 对 视觉 场景 进行 的 有 意 修改 。 这 些 
研究 者 提出 了 一 种 从 视频 序列 中 移 除 平面 物体 并 用 另 一 种 纹理 替代 它们 的 方法 。 

通常 ， 不 需要 的 物体 在 美学 上 不 能 令 人 满意 。 例 如 黑白 标志 点 具有 高 对 比 度 ， 因 而 在 日 
和 环 境 中 不 自然 地 凸显 出 来 ， 这些 标志 点 可 以 被 移 除 [Siltanen 2006]。 在 协作 增强 现实 中 ， 
头 戴 式 显示 器 阻碍 了 多 用 户 之 间 建 立 面 部 和 眼神 接触 ， 已 经 出 现 了 尝试 移 除 头 戴 式 显示 器 的 
研究 工作 ， 通 过 合成 的 面部 表情 来 代替 头 戴 式 显示 硕 [Takemura and Ohta 2002]。 

消 隐现 实 的 概念 在 技术 上 与 图 像 修复 相关 。 例 如 ， 在 媒体 制作 中 ， 经常 需 要 从 图 像 中 消 
除 不 想 要 的 效果 ， 如 模拟 电影 胶片 上 的 划 痕 或 保险 丝 等 其 他 物体 。 不 同 于 大 多 在 后 期 离线 制 
作 的 图 像 修复 ， 消 隐现 实 聚 焦 于 用 户 最 小 介入 的 实时 移 除 ， 所 以 消 隐 现实 必须 解决 如 下 三 个 
问题 : 

o 确定 需要 被 移 除 的 感 兴趣 区 域 (ROI)。 

© 对 ROI 隐藏 的 区 域 进 行 观察 或 建 模 ， 为 接 下 来 的 合成 步骤 提供 输入 数据 。 

e 含有 代替 被 移 除 ROI 内 容 的 新 图 像 合成 。 

在 接 下 来 的 章节 中 将 详细 讨论 这 些 任 务 。 


6.5.1 感 兴趣 区 域 的 确定 


感 兴趣 区 域 是 屏幕 上 的 连续 像素 集合 ， 包 括 了 需要 被 消 隐现 实 系统 移 除 的 物体 。 感 兴趣 
区 域 可 以 是 精确 的 〈《 即 准确 地 包含 被 物体 遮挡 的 像素 )， 也 可 以 是 保守 的 〈 即 宫 括 了 被 物体 遮 
挡 像 系 的 超 集 )。 并 且 ， 如 果 物 体 或 相机 是 移动 的 ， 感 兴趣 区 域 也 会 随 着 时 间 改 变 。 这 需要 
一 种 持续 跟 踊 感 兴趣 区 域 的 机 制 ， 从 而 使 得 问题 更 加 复杂 。 

感 兴趣 区 域 可 通过 几 种 方法 确定 。 一 种 方法 是 让 用 户 手动 在 图 像 中 指出 这 个 区 域 。 用 户 
可 以 直接 绘 出 该 物体 的 轮廓 ， 或 者 给 出 一 个 间接 的 规格 ,例如 一 个 长 方形 边界 框 或 者 是 在 
物体 上 的 一 系列 点 击 。 长 方形 边界 框 可 用 作 一 个 保守 的 感 兴趣 区 域 [Zokai et al. 2003]， 或 
用 于 初始 化 物体 轮廓 的 主动 确定 [Herling and Broll 2010]。 点 击 可 以 用 于 物体 的 初始 化 分 割 
[Lepetit et al. 2001]。 一 旦 确定 了 轮廓 之 后 ， 就 可 以 在 一 系列 帧 中 被 跟 踊 [Lepetit et al. 2001] 
[van den Hengel et al. 2009]. 

感 兴 趣 区 域 也 可 以 通过 被 移 除 物体 的 模型 来 确定 。 该 方法 假定 可 以 获得 感 兴趣 区 域 的 几 
何 模 型 或 者 基于 外 观 的 模型 。 对 于 一 个 静态 物体 ， 它 的 模型 如 同 幻 影 一 样 被 投射 到 当前 视野 
中 ,但 是 它 在 图 像 中 的 印迹 可 用 来 描述 感 兴趣 区 域 。 必 须 跟 踩 一 个 移动 的 物体 以 便 在 帧 与 帧 
之 间 辨 认 并 消除 。 基 于 模型 的 感 兴趣 区 域 跟踪 的 优点 是 这 经 党 是 确定 摄像 机 位 姿 过 程 的 一 项 
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副产品 。 
最 后 ， 如 采 感 兴趣 区 域 是 力 反 馈 臂 等 鲍 链 式 物体 ， 那 么 通过 模拟 贸 链 装置 的 链 连 接 角度 
可 确定 感 兴趣 区 域 。 


6.5.2 ”隐藏 区 域 的 观察 与 建 模 


为 了 消 隐 一 个 场景 并 移 除 一 个 特定 物体 ， 该 场景 必须 被 蔡 换 为 背景 图 像 的 视图 。 在 增强 
现实 疙 置 中 ， 由 于 摄像 头 的 实时 视频 反馈 中 不 能 直接 观察 到 背景 ， 因 此 必须 通过 其 他 渠道 来 
获得 关于 背景 的 必要 信息 。 

最 简单 的 方法 是 不 直接 观察 背景 ， 而 是 通过 对 感 兴 趣 区 域 附近 的 观察 合成 隐藏 区 域 。 该 
方法 基于 图 像 具 有 充分 的 空间 一 致 性 的 假设 ,通常 以 图 像 修复 的 形式 实现 一 一 也 就 是 说 ， 从 
图 像 的 其 他 部 位 复制 合适 的 像素 。 

对 于 静态 场景 ， 一 个 简单 的 典型 方法 是 通过 离线 步骤 进行 事先 重建 。 例 如 ，Cosco 等 
人 [2009] 尝试 建立 简单 的 代理 几何 ， 与 一 系列 图 像 一 起 用 作 投 影 纹理 。 类 似 的 Zokai 等 人 
[2003] 运用 了 多 张 参考 照片 和 一 个 简单 的 几何 模型 ， 通常 这 种 几何 以 背景 平面 的 方式 给 出 
[Enomoto and Saito 2007]。 

Lepetit 等 人 [2001] 描述 了 一 种 更 加 复杂 的 离线 方法 。 他 们 采用 在 场景 中 四 处 移动 的 单 
个 摄像 头 捕 换 到 的 图 像 序列 ， 从 而 可 以 显示 随时 间 变 化 背景 的 不 同 部 分 。 通 过 重建 摄像 机 路 
径 以 及 三 角 化 背景 特征 ， 他 们 获得 了 背景 的 有 纹理 几何 。 但 是 仅 使 用 单个 摄像 机 很 难保 证 在 
摄像 机 路 径 上 覆盖 足够 的 背景 。 

为 了 实现 运行 时 对 背景 的 了 十 接 观 察 ， 有 必要 采用 多 个 摄像 机 。 静 态 摄像 机 的 优点 是 可 以 
离线 进行 外 参 校 准 ， 而 在 运行 时 无 须 给 予 更 多 关注 。 然 而 ,运动 摄像 机 可 以 更 好 地 覆盖 动 
态 场 景 。 例 如 ，Enomoto 和 Saito [2007] 利用 标志 跟踪 和 多 个 单 应 变换 相关 的 手持 摄像 机 将 
图 像 信息 从 一 个 视图 传递 到 男 外 一 个 视图 。 还 有 一 些 系统 [Kameda et al. 2004] [Avery et al. 
2007] [Barnum et al. 2009] 利用 多 个 摄像 机 的 信息 让 物体 在 视觉 上 变 得 透明 而 不 是 完全 移 除 
它们 ( 见 第 8 章 的 讨论 )。 


6.5.3 ” 感 兴 趣 区 域 的 移 除 


如 果 感 兴趣 区 域 需要 利用 有 效 的 背景 蔡 代 而 不 是 简单 的 覆盖 ， 可 以 使 用 以 下 两 种 方法 : 
图 像 修复 和 基于 图 像 的 这 染 。 

图 像 修复 不 需要 获取 背景 模型 ， 但 是 需要 依赖 感 兴 趣 区 域 临 近 区 域 的 采样 来 填充 空白 区 
域 。 一 个 非常 简单 的 方法 是 从 感 兴 趣 区 域 的 每 个 边界 进行 像素 的 线性 插值 。 该 方法 可 以 通过 
扫描 线 导 同等 算法 执行 。 尽 管 该 方法 十 分 简单 ， 线 性 插值 通常 能 够 得 到 非常 小 或 者 狭窄 区 域 
的 合理 结果 。 但 可 惜 的 是 ， 对 于 大 面积 区 域 ， 细 节 的 缺失 变 得 非常 明显 。 

Siltanen [2006] 提出 了 一 种 方法 ， 通 过 镜像 边界 周围 的 区 域 到 需要 隐藏 的 区 域 来 覆盖 一 
个 长 方形 感 兴趣 区 域 ， 该 区 域 的 每 一 个 边界 都 进行 这 种 镜像 。 通 过 对 这 四 个 翻转 区 域 进行 插 
值 ， 可 以 生成 隐藏 区 域 像素 的 最 终 值 。Korkalo 等 人 [2010] 拓展 了 该 工作 来 处 理 动态 光照 ， 
通过 线性 插值 估算 隐藏 区 域 的 低频 纹理 。 细 节 纹 理 利 用 翻转 技术 产生 ， 但 通过 低频 纹理 进行 
比例 缩放 。 运 行 时 计算 每 一 帧 的 低频 纹理 并 调节 光照 的 动态 变化 ， 然 后 通过 调整 细节 纹理 来 
仿真 一 致 的 表面 细节 。 

由 Herling 和 Broll [2012] 介绍 的 PixMix 方法 将 图 像 修 复 表 达 为 一 个 实时 最 优 问题 ( 见 
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图 6.28 )。 这 些 研 究 人 员 搜 寻 从 源 〈 感 兴趣 区 域 附近 ) 到 目标 ( 感 兴趣 区 域 ) 的 像素 映射 并 最 
优化 了 两 个 限制 : 目标 的 临近 像素 应 该 来 源 于 源 的 临近 像素 ; 目标 像 系 的 邻近 外 观 应 该 与 它 
们 对 应 的 源 像素 附近 的 外 观 相 似 。 在 初始 的 粗略 估算 中 ， 源 位 置 的 随机 变化 被 迭代 测试 。 如 
果 发 现 有 提升 ， 将 会 被 传递 给 附近 的 目标 像素 。 该 方法 只 进行 了 局 部 改进 ， 并 没有 进行 全 局 
最 优化 搜寻 。 尽 管 如 此 ， 一 项 运用 了 图 像 金 字 塔 的 由 粗 到 精 的 方法 使 得 这 个 算法 实时 收敛 到 
一 个 可 信 的 成 果 上 。Herling 和 Broll 进一步 描述 了 如 何 通 过 视频 序列 的 后 续 帧 跟 踊 一 个 本 地 
的 平面 感 兴趣 区 域 ， 通 过 运用 单 应 跟踪 来 保证 时 间 上 的 一 致 性 。 
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图 6.28 PixMix 从 移 除 物体 的 周围 拷贝 像素 ， 从 而 可 以 在 实时 摄像 机 视频 流 中 产生 消 
隐现 实 的 效果 (由 Jan Herling 和 Wolfgang Broll 提供 ) 


基于 图 像 的 这 染 依赖 从 一 个 不 同 的 摄像 机 或 者 摄像 机 位 置 获取 的 图 像 来 填补 空洞 。 这 些 
图 像 被 变形 以 匹配 当前 摄像 机 位 置 ， 二 次 投影 需要 某 种 形式 的 背景 场景 几何 近似 。 这 种 基于 
图 像 算法 的 核心 理念 是 运用 投影 纹理 映射 或 者 一 种 类 似 的 映射 形式 将 辅助 摄像 机 中 的 图 像 应 
用 到 代理 几何 ， 然 后 通过 在 当前 视点 描绘 纹理 代理 来 合成 新 的 图 像 。 这 里 可 以 采用 基于 图 像 
技术 的 多 种 形式 ， 包 括 网 格 的 应 用 [Cosco et al. 2009]、 结 合 阶层 式 背 景 划 分 的 半 透 视 投影 
[Zokai et al. 2003] 以 及 平面 扫描 算法 [Jarusirisawad et al. 2010]. 


6.5.4 基于 投影 的 消 隐现 实 

消 隐 现实 也 可 以 通过 基于 投影 机 的 增强 现实 实现 。 这 里 的 挑战 是 确定 投影 到 场景 中 需要 
被 移 除 物体 上 的 正确 图 像 内 容 。 在 正确 的 配置 下 ， 当 用 户 观 察 投影 图 像 时 ， 会 产生 接收 投影 
后 真实 表面 消失 或 者 至 少 变 得 近乎 透明 的 印象 。 

一 种 配置 包括 头 戴 式 投影 机 及 覆盖 回 射 反光 材质 涂 层 的 物体 。 该 方法 被 称 作 “光学 伪 
装 ”[Inami et al. 2003]， 由 于 回 射 反光 涂 层 具有 反射 性 质 ， 头 戴 式 投影 机 投射 的 图 像 大 部 分 
反射 回 观 察 者 。 这 种 配置 的 优点 是 在 没有 头 部 跟踪 和 投影 图 像 动态 调整 的 情况 下 人 允许 观察 者 
有 限 范 围 的 移动 。 例 如 ， 这 种 配置 曾 用 于 伪装 触觉 输入 设备 [nami et al. 2000]， 也 用 于 隐 去 
AEWA Sts [Yoshida et al. 2008]. 

另 一 种 配置 使 用 了 投影 的 漫 反 射 面 。 强 光 投 影 机 的 应 用 使 得 可 以 基于 辐射 度 测 量 来 补偿 
已 存 表面 的 纹理 [Bimber et al. 2005]。 该 方法 可 使 得 物体 在 视觉 上 消失 [Seo et al. 2008]。 这 
样 的 效果 仅 能 应 用 于 平 放 在 实体 表面 的 物体 ， 否 则 就 是 与 视角 相关 并 需要 对 移动 用 户 的 头 部 
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6.6 摄像 机 仿真 
即使 我 们 使 用 最 先进 的 演 染 技术 完全 解决 了 篆 见 的 光照 问题 ， 由 于 物理 摄像 机 的 图 像 质 
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量 有 限 ， 在 视频 透视 式 增 强 现实 中 仍然 存在 着 显著 的 光度 不 一 致 。 视 频 摄 像 机 表 景 中 的 像素 
外 表 应 该 与 使 用 计算 机 图 形 泻 染 的 增强 图 像 匹 配 。 虚 拟 和 真实 物体 之 间 的 任何 图 像 质量 差异 
将 显示 为 虚拟 世界 和 现实 世界 之 间 的 裂痕 。 这 种 裂痕 在 茶 些 增强 现实 应 用 中 可 能 是 有 意 为 之 
的 ,但 在 许多 其 他 应 用 中 是 不 需要 的 。 

“图 像 质量 ” 特 指 基于 真实 摄像 机 成 像 过 程 的 伪 影 ， 与 生成 虚拟 物体 的 理想 虚拟 摄像 机 
相对 。 例 如 ， 在 计算 机 图 形 学 中 ,假设 存在 一 个 完美 的 针 孔 相机 ， 而 实际 上 相机 镜头 可 能 会 
引入 明显 的 失真 。 在 典型 的 消费 级 摄像 机 中 也 存在 许多 其 他 缺陷 ， 其 中 最 引 人 注 意 的 干扰 包 
括 镜头 失真 、 模 糊 、 品 点 、 光 尝 色 差 、 拜 耳 掩 模 伪 影 和 色调 映射 伪 影 ， 这 些 将 在 后 续 几 节 中 
进行 讨论 。 


6.6.1 镜头 畸变 


目前 ， 在 增强 现实 应 用 中 使 用 的 大 多 数 数 字 摄 像 机 都 是 相对 低 成 本 的 消费 级 产品 ， 如 智 
能 手机 中 内 置 的 摄像 头 或 网 络 摄像 头 。 这 些 摄像 机 具有 非常 小 的 透镜 和 短 焦距 ， 通常 会 引入 
显著 的 桶 形 畸 变 。 头 戴 式 显示 器 的 光学 系统 产生 的 失真 也 存在 类 似 的 问题 。 
增强 现实 有 以 下 两 种 失真 补偿 方法 : 
© 在 视频 透视 式 增强 现实 系统 中 ， 可 以 通过 反 转 失真 来 纠正 出 现 径 回 失真 的 视频 图 像 ， 
如 图 6.29 所 示 。 
e 如 果 视 频 图 像 不 应 被 修改 ,或 者 使 用 的 是 光学 式 透 视 显示 毅 ， 则 可 以 通过 修改 计算 
机 生成 的 图 像 来 匹配 感知 真实 场景 中 存在 的 失真 。 





图 6.29 a) 校正 模式 的 失真 视频 图 像 ; b) 修正 图 像 (由 Anton Fuhrmann 提供 ) 


Tsai [1986] 描述 的 经 典 摄像 机 标定 技术 使 用 分 析 模 型 确定 径 向 畸变 。 该 模型 可 以 直接 对 
图 像 的 每 个 点 进行 畸变 校正 (纠正 )。 遗 憾 的 是 ， 对 于 图 像 的 每 个 点 计算 单独 的 校正 不 是 一 
个 非常 经 济 的 解决 方案 ， 我 们 更 愿意 采用 与 摄像 机 相同 的 方式 有 效 利用 图 形 硬 件 来 校正 增强 
现实 的 重合 图 像 。 

为 了 实现 使 用 图 形 硬件 的 通用 图 像 失 真 机 制 ， 我 们 可 以 利用 纹理 映射 机 制 [Watson and 
Hodges 1995] [Fuhrmann et al. 2000]。 使 用 源 图 像 作 纹理 并 将 其 映射 到 屏幕 对 齐 的 四 边 形 网 
ME OLA 6.29 )。 通 过 确定 网 格 每 个 顶点 失真 函数 的 倒数 可 以 纠正 图 像 ， 需 要 注意 的 是 ， 
这 种 纠正 不 可 避免 的 副作用 是 由 于 变焦 效应 在 角落 附近 损失 少量 的 图 像 信息 。 

如 果 不 能 够 获得 失真 的 闭合 形式 描述 ， 则 可 以 通过 测量 摄像 机 所 获取 的 方形 网 格 组 成 的 
校准 图 案 的 屏幕 位 置 来 手动 获取 失真 。 在 测量 网 格 角 的 位 置 后 ， 这 些 位 置 可 以 直接 作为 纹理 
坐标 映射 到 未 失真 的 四 边 形 网 格 上 。 纹 理 便 件 通过 在 四 边 形 内 部 进行 线性 内 捅 校正 失真 图 像 。 
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6.6.2 模糊 


摄像 机 引起 的 模糊 效应 来 自 两 个 主要 来 源 : 散 焦 和 运动 模糊 。 由 散 焦 引起 的 模糊 取决 于 
摄像 机 焦 平 面 到 物体 的 距离 。 运 动 模糊 由 图 像 传 感 需 中 颜色 强度 的 时 域 积分 产生 。 模 糊 的 两 
个 来 源 都 导致 了 与 增强 现实 场景 中 计算 机 生成 部 分 的 碎片 化 和 清晰 的 外 观 形 成 鲜明 对 比 的 特 
征 ， 而 不 仅仅 是 图 像 的 全 部 锐利 部 分 。 真 实 和 虚拟 图 像 自 然 整合 的 最 简单 解决 方案 是 模糊 计 
算 机 生成 的 对 象 ， 以 便 在 测量 到 必要 的 模糊 量 之 后 匹配 其 真实 世界 的 外 观 。 

如 果 摄 像 机 的 焦距 是 已 知 的 ， 在 给 定 其 在 场景 中 的 深度 后 ,很 容易 确定 应 该 如 何 表示 失 
焦 的 虚拟 对 象 。 不 幸 的 是 ， 目 动 对 焦 摄像 机 通 稼 不 会 给 出 其 当前 的 焦距 ， 可 以 通过 观察 场景 
中 的 已 知 物体 来 测量 散 焦 和 运动 模糊 。Okumnura 等 人 [2006] 描述 了 具有 圆 形 黑白 边界 的 特 
殊 标 志 点 的 设计 ， 可 用 于 通过 确定 沿边 界 观察 到 的 强度 梯度 来 估计 图 像 中 的 模糊 。 

Fischer 等 人 [2006] 通过 跟踪 信息 估计 运动 模糊 。 在 存在 被 跟踪 的 摄像 机 和 静态 场景 的 
假设 下 ， 他 们 确定 每 个 对 象 中 心 的 屏幕 空间 运动 。 如 果 物 体 的 速度 超过 每 帧 $ ~ 10 个 像素 
— 他 们 将 模糊 应 用 于 与 其 运动 成 正比 的 对 象 。Klein 和 Murray [2010] 同样 处 理 了 跟踪 

息 ， 但 只 考虑 了 旋转 运动 并 将 运动 模糊 应 用 于 整个 图 像 。 他 们 利用 低 分 辨 率 (24x18) 网 
格 确 定 采样 点 的 屏幕 空间 运动 并 应 用 了 沿 局 部 模糊 切线 方向 的 模糊 滤 镜 。 在 静态 背景 前 移动 
物体 造成 的 运动 模糊 在 上 述 任何 一 种 方法 中 都 没有 被 考虑 过 ， 尽 管 可 以 直接 考虑 这 个 因素 。 

模糊 可 以 通过 几 种 不 同 的 方式 进行 泻 染 。 一 种 方法 是 多 次 绘制 同一 个 对 象 ， 每 次 在 模 
糊 方向 上 稍微 偏 移 并 逐渐 增加 透明 度 (alpha 值 )。 绘 制 可 以 在 物体 空间 中 进行 ， 也 可 以 在 屏 
幕 空 间 中 首先 泻 染 到 纹理 ， 然 后 将 结果 多 次 显示 为 告示 ( 即 纹理 映射 、 视 图 平面 对 齐 的 四 边 
形 )。 也 可 以 通过 已 演 染 图 像 上 的 像素 者 色 锋 在 后 处 理 中 应 用 模糊 。 为 了 提高 处 理 速度 ， 通 
稼 应 用 可 分 离 的 高 斯 滤波 央 。 

这 两 种 方法 都 只 在 图 像 空 间 中 考虑 模糊 。 如 果 需 要 正确 的 三 维 运动 模糊 ， 可 以 应 用 Park 
等 人 [2009] 描述 的 方法 : BARBS MAPA alpha 混合 的 告示 。 给 定时 间 to Mt, 创建 的 两 
个 告示 By, AIB, EFE t (cta t) 的 对 象 之 间 模 糊 的 真实 形状 通过 演 染 之 前 变形 的 Bo 
和 B, 来 估计 ， 并 交叉 解析 结果 。 这 可 以 很 容易 地 利用 纹理 硬件 来 完成 。 使 用 了 基于 将 对 象 
边框 的 角 投 影 到 期 望 位 置 的 仿 射 变形 来 近似 正确 但 更 昂贵 的 透视 切 曲 。 

Kan All Kaufmann [2012b] 使 用 实时 光线 跟踪 在 增强 现实 中 实现 基于 物理 的 深度 场 效 应 
对 图 像 的 所 有 组 件 应 用 正确 的 模糊 效果 。 他 们 通过 分 层 持 动 的 光线 采样 来 仿真 孔径 ， 并 通过 
区 分 不 同 的 射线 类 型 (真实 / 虚拟 ) 来 计算 差分 浓 染 所 需要 的 Levy 和 Lr 分量。 


6.6.3 ”噪声 


具有 小 型 传感器 的 数字 摄像 机 也 可 能 会 受到 相当 大 噪声 的 和 干扰。 这 种 噪声 具有 一 定 的 
特性 ， 随 相机 型 号 、 强 度 和 颜色 通道 变化 [Irie et al. 2008]。 为 了 重 现 特定 摄像 机 的 噪声 种 
类 ， 必 须 进 行 预先 校准 ， 这 可 以 通过 在 不 移动 相机 的 情况 下 观察 X 帧 的 合适 静态 场景 来 完 
成 [Fischer et al. 2006]。 对 于 每 个 像素 pm， 通过 求 取 N 个 观测 值 o; ;的 平均 值 来 确定 均值 j， 
然后 根据 它们 的 平均 值 上 将 像素 p EA M M Bl 并 计算 对 于 每 个 B, 的 平均 值 jw 和 标准 差 
6.。 这 些 计算 针对 每 个 颜色 通道 (红色 、 绿 色 和 蓝 色 ) 分 别 进行 并 使 用 统计 值 a, Oe DAE R 
声 强度 和 变化 的 设置 。 

在 运行 时 ， 对 属于 虚拟 对 象 〈 而 不 是 背景 像素 ) 的 计算 机 生成 图 像 中 的 每 个 像素 应 用 适 
当 缩 放 的 高 斯 噪声 。 作 为 噪声 源 ， 预 先 计算 包含 高 斯 噪声 的 纹理 。 为 了 确保 每 个 像素 pi 都 
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到 重复 的 图 案 。 纹 理 的 噪声 值 根据 从 p, 所 属 的 B, MRE E u, 0, 进行 缩放 并 加 到 Bi。 这 
为 每 个 颜色 通道 单独 完成 。 

为 了 最 佳 匹配 特定 摄像 机 ， 经 验 观察 到 的 噪声 可 以 引入 一 些 改变 。 第 一 个 改变 涉及 扰动 
的 大 小 。 观 察 到 的 噪声 通 前 大 于 单个 像素 ， 因 此 噪声 修正 也 可 以 在 多 个 像素 上 分 层 。 第 二 个 
改变 涉及 干扰 的 持续 时 间 。 通 过 在 几 个 连续 帧 显示 特定 的 噪声 干扰 来 避免 高 频 闪 烁 可 能 是 合 
适 的 。 这 些 变化 量 同 样 可 以 通过 随机 数 分 布 来 控制 。 


6.6.4 = 
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象 模拟 渐 举 。 


6.6.5 色差 


通过 物理 镜头 的 不 同 颜 色 ( 波 长) 光 的 折射 差异 导致 轻微 的 颜色 异常 ， 特 别 是 在 物体 边界 
处 更 容易 观察 到 。 在 标定 步骤 中 ， 可 以 通过 观察 摄像 机 中 保持 中 性 灰色 调 的 图 案 并 对 齐 在 各 
颜色 通 候 中 略微 侦 移 的 图 案 测 量 色 差 。 假 设 绿 色 通 拓 没 有 像 差 ， 通 过 校准 可 以 确定 网 像 中 每 
个 位 置 红色 和 蓝 色 通道 的 偶 移 。 利 用 该 校准 数据 可 以 通过 泻 染 相应 地 模糊 或 侦 移 来 仿真 色差 。 


6.6.6 ”拜耳 模式 伪 影 


拜耳 掩 模 是 放置 在 某 些 相机 传 感 右前 面 的 彩色 滤 光 需 阵 列 ， 用 于 捕获 红色 、 绿 色 和 蓝 色 
通道 各 目的 贡献 。 通 过 混合 这 些 贡 献 可 以 获得 像素 的 最 终 颜色 。 和 拜耳 掩 模 通常 在 颜色 通道 之 
间 产 生 一 定量 的 串扰 以 及 模糊 。 如 果 拜 耳 模 式 是 已 知 的 ， 则 图 像 可 以 被 下 采样 到 单独 的 拜耳 
通道 中 ， 并 且 可 以 在 该 描述 中 仿真 摄像 机 芯片 的 行为 。 在 这 个 过 程 中 应 该 考虑 两 个 步骤 。 

首先 ， 摄 像 机 芯片 执行 各 种 视频 处 理 操作 ， 通 党 涉及 锐 化 及 量化 。 这 种 行为 并 不 十 分 明 
确 ， 需 要 通过 观察 进行 反 推 。 

其 次 ， 大 多 数 摄像 机 通过 YUV 格式 (亮度 Y MERU, V) 提供 数据 。 数 据 通过 摄像 
机 芯片 从 RGB 转换 为 YUV 并 通常 返回 到 主机 上 的 RGB。 在 YUV 格式 表示 中 ，Y 分 量 的 
空间 分 辨 率 要 比 U 和 VV 分量 高 得 多 ,通常 的 比例 是 4 : 1 : 1。 因 此 ， 前 一 步骤 获得 的 拜耳 图 
像 首先 被 转换 为 YUYV 格式 ， 然 后 被 转换 为 RGB 格式 ， 进 行 最 终 合成 。 


6.6.7 色调 映射 伪 影 


除了 以 上 缺陷 外 ， 在 将 摄像 机 的 物理 辐射 值 转换 为 RGB 值 的 任意 色调 映射 时 ， 会 出 现 
合成 增强 现实 图 像 不 一 致 。 在 大 多 数 情况 下 ， 对 消费 级 摄像 机 的 任何 准确 的 颜色 校准 都 是 不 
可 行 的 。 这 将 导致 虚拟 和 真实 物体 颜色 之 间 明 显 不 一 致 。 这 种 不 一 致 会 降低 现实 感 ， 特 别 是 
在 基于 物理 模拟 (如 全 局 光照 技术 ) 进行 虚拟 对 象 的 泻 染 时 。 

为 了 解决 这 个 问题 ，Knecht 等 人 [2011] 提出 了 一 种 近似 于 摄像 机 图 像 中 观察 到 的 色调 
映射 的 虚拟 物体 颜色 自动 校准 技术 。 他 们 假设 使 用 如 Debevec [1998] 所 描述 的 差分 泻 染 方 
法 。 回 想 一 下 ， 通 过 这 种 方法 可 以 获得 仅 包 含 真实 物体 场景 的 全 局 光照 仿真 Ls:， 并 且 可 以 
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与 相机 图 像 Le 进行 比较 。 通 过 对 来 日 Ls Al Le 的 对 应 像素 进行 采样 ， 可 以 获得 从 模拟 辐射 
值 到 观察 到 的 颜色 值 的 映射 函数 的 描述 。Ls 中 不 存在 的 辐射 值 ， 它 是 通过 基于 颜色 通道 交 
换 的 简单 启发 式 方法 来 合成 的 。 最 后 ， 通 过 对 样本 应 用 多 项 式 回 归来 生成 色调 映射 函数 。 


6.7 风格 化 增强 现实 


虽然 大 多 数 计算 机 图 形 技术 都 针对 通 真 的 渲染 ， 但 非 真 实感 演 染 ( NPR) 与 生成 风格 化 
图 像 有 关 。 例 如 ，NPR 技术 可 以 模拟 铅笔 画 、 油 画 或 卡通 。 这 种 NPR 风格 可 以 应 用 于 增强 
现实 中 的 虚拟 对 象 [Haller and Sperl 2004]。 如 果 将 风格 化 同时 应 用 于 增强 现实 场景 的 虚拟 组 
件 和 实际 组 件 ， 则 该 方法 被 称 为 风格 化 增强 现实 [Fischer et al. 2008]. 

虚拟 物体 和 真实 物体 之 间 表 示 或 外 观 的 差异 可 以 通过 应 用 这 种 统一 的 风格 化 而 被 隐藏 ， 
从 而 改善 了 沉浸 感 或 满足 了 艺术 欲望 。 技 术 上 来 说 ， 有 两 种 可 能 的 创建 风格 化 增强 现实 的 方 
法 。 一 种 方法 对 图 像 的 真实 和 虚拟 部 分 分 别 应 用 风格 化 技术 ， 这 样 可 以 使 用 关于 内 容 的 特定 
芭 识 。 例 如 ， 虚 拟 对 象 的 演 染 算法 除了 生成 彩色 缓冲 区 外 还 可 以 生成 普通 缓冲 区 ， 然 后 可 以 
将 普通 缓冲 区 用 于 NPR 着色 。 或 者 是 整个 图 像 可 以 在 合成 虚拟 和 真实 部 件 之 后 在 图 像 空 间 
中 进行 NPR 算法 操作 LE 6.30 )。 这 种 方法 具有 操作 简便 的 优点 ， 并 且 消 除了 对 两 种 独立 
泻 染 技术 进行 协调 的 需要 。 





图 6.30 ”风格 化 的 增强 现实 可 以 用 于 艺术 表现 ， 场 景 的 真实 和 虚拟 部 分 采用 了 相同 的 风 
格 (原始 场景 图 像 由 Peter Kan 提供 ， 见 彩 插 ) 


近年 来 ， 已 经 出 现 了 一 些 风 格 化 增强 现实 的 例子 。 例 如 ，Haller 等 人 [2005] 提出 了 基于 
粗略 地 跟随 对 象 轮廓 的 画笔 笔触 的 宽松 粗略 泻 染 。Fischer 等 人 [2005] 使 用 许多 小 笔触 创造 
了 一 个 点 画家 的 印象 。Fischer 等 人 [2008] 讨论 的 卡通 动画 使 用 运动 挤 压 和 拉 伸 、 运 动 模糊 
和 运动 路 线 来 传达 虚拟 物体 的 运动 。Chen 等 人 [2008] 提出 了 一 种 仿真 增强 现实 中 水 彩 效 果 
的 方法 。 他 们 通过 将 图 像 细 分 为 不 规则 的 拼 块 并 平均 每 个 拼 块 中 的 颜色 来 创建 流体 颜色 的 印 
象 。 使 用 原始 图 像 中 提取 的 边缘 来 确保 拼 块 时 域 行为 的 一 致 。 


6.8 小 结 


本 章 讨 论 了 增强 现实 场景 中 视觉 一 致 性 的 概念 。 增 强 现 实 演 染 流程 汇集 了 图 像 中 虚拟 和 
真实 的 部 分 。 为 了 获得 视觉 一 致 性 ， 我 们 必须 进行 几何 和 光度 注册 。 如 果 具 有 高 精度 跟踪 和 
真实 场景 的 精确 模型 ， 则 几何 注册 是 可 行 的 。 因 为 必须 仿真 真实 和 虚拟 物体 之 间 的 沧 传 输 ， 
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光度 注册 的 要 求 更 高 。 最 简单 的 技术 只 涉及 虚拟 对 象 和 真实 对 象 之 加 的 阴影 ， 这 样 的 阴影 可 
以 通过 改进 计算 机 图 形 中 标准 阴影 仿真 技术 获得 。 如 果 需 要 获得 阴影 以 外 的 高 级 通用 光照 效 
果 ， 则 需要 对 环境 光照 进行 建 模 ， 然 后 将 该 光照 应 用 于 虚拟 对 象 。 使 用 从 组 合 增强 现实 场景 
中 无 缝 地 去 除 真 实物 体 的 技术 可 以 实现 消 隐 现实 。 

除了 考虑 虚拟 和 真实 物体 共享 的 场景 空间 之 外 ， 值 得 采用 相干 技术 仿真 用 于 获取 真实 图 
像 摄 像 机 的 属性 ， 并 将 这 种 仿真 (例如 几何 失真 、 模 糊 或 噪声 等 ) 应 用 于 虚拟 对 象 。 风 格 化 
的 增强 现实 旨 在 通过 艺术 手段 来 统一 真实 和 虚拟 图 像 的 外 观 。 
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poten eo meen pe rain grep fo engine gga dat ype 
地 藤 人 真实 场景 ,这 是 一 个 重要 的 问题 。 作 为 一 种 新 型 用 户 界 面 范 式 ， 增 强 现 实 的 潜力 主要 
来 目 对 当前 环境 、 pe pri et pe 
些 信 息 以 适当 的 视觉 形式 呈现 ， 这 可 以 通过 应 用 合适 的 可 视 化 技术 来 实现 。 

与 传统 的 可 视 化 技术 不 同 ， 用 于 增强 现实 的 可 视 化 技术 需要 与 真实 环境 进行 交互 ， 这 已 
经 成 为 可 视 化 技术 的 一 个 内 在 组 成 部 分 [Kalkofen et al. 2011]。 本 章 把 真实 环境 考虑 在 内 来 
研究 情境 可 视 化 技术 。 

情境 可 视 化 一 词 最 早 由 White 和 Feiner[2009] 提出 ， 用 来 描述 一 种 上 下 文 感知 计算 ,这 
里 的 上 下 文 定 义 为 物理 场景 的 一 部 分 。 这 样 的 上 下 文 不 一 定 必须 是 单一 物体 ， 可 以 是 空间 中 
一 个 孤立 的 点 ( 见 图 7.1 ) 或 是 如 同一 个 特定 城区 的 大 面积 区 域 ， 只 要 在 真实 环境 中 有 一 
的 语义 即 可 。 





图 7.1 对 游客 感 兴趣 的 地 点 进行 文本 标注 是 情境 可 视 化 的 一 个 范例 (由 Raphael Grasset 
提供 ) 


作为 某 种 特定 追踪 技术 的 结果 ， 只 在 三 维 空间 注册 的 可 视 化 并 不 属于 情境 可 视 化 。 例 
如 ， 许 多 用 到 基准 标记 的 增 强 现实 应 用 将 其 虚拟 内 容 相对 于 特定 标记 点 进行 注册 (Hh BI 
7.2 )。 很 明显 这 些 标记 是 物理 实体 ，| 除 了 方便 追踪 ， 它们 在 真实 环境 中 并 没有 实际 意义 。 这 
类 增强 现实 应 用 可 以 被 转移 到 任何 位 置 而 不 会 改变 其 语义 ， 这 也 是 为 什么 上 述 实例 不 能 被 称 
作 情 境 可 视 化 。 这 种 类 型 的 可 视 化 技术 与 虚拟 现实 可 视 化 技术 没有 明显 的 不 同 ， 因 此 本 章 将 
不 会 对 其 进行 进一步 讨论 。 

本 章 将 从 情境 可 视 化 技术 必须 面 对 的 挑战 开始 ， 这 使 得 我 们 可 以 对 设计 中 面 对 的 问题 有 
所 理解 。 在 本 章 余 下 的 章节 中 将 对 这 些 问题 逐一 _ 解 决 。 我 们 首先 讨论 如 何 解决 基本 的 注册 问 
题 ， 然 后 探索 增强 现实 中 信息 的 标记 及 铺设 方法 ， 接 着 介绍 如 何 使 用 X 射线 可 视 化 技术 显 


示 隐 藏 信息 ， 之 后 概述 一 种 蔡 代 的 场景 空间 操纵 方法 ， 可 以 在 不 希望 使 用 X 射线 可 视 化 方 
法 时 显示 隐藏 信息 。 最 后 将 讨论 如 何在 包含 众多 信息 的 场景 中 进行 有 效 的 信息 过 滤 。 





图 7.2 检验 三 维 数学 模型 的 增强 现实 可 视 化 技术 是 一 项 引 人 注 目的 应 用 , 但 这 不 
是 情境 可 视 化 技术 ， 因 为 缺乏 带 有 显著 语义 的 真实 世界 参考 对 象 (由 Anton 
Fuhrmann 提供 ) 


7.1 挑战 
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会 造成 显示 错乱 及 理解 错误 。 为 了 进行 必要 的 理解 ， 用 户 还 必须 能 够 交互 地 探索 数据 。 

此 外 ， 将 情境 可 钢化 租 入 夏 实 世界 还 需要 解决 男 外 几 个 问题 。 影 响 可 视 化 布置 的 注册 误 
差 会 村 致 错误 的 信息 传递 ， 即 使 可 以 完美 地 注册 ， 真 实 和 虚拟 环境 之 间 的 视觉 干扰 也 会 降低 
用 户 从 不 相关 信息 中 轻易 辨识 重要 信息 的 能 力 。 除 此 之 外 ， 可 视 化 需要 随 着 真实 环境 (包括 
用 户 的 视角 ) 的 不 断 改 变 进行 调整 。 为 了 避免 干扰 ， 调 整 必 须要 在 确保 时 域 一 致 性 的 条 件 下 
进行 。 以 下 革 广 将 更 为 详尽 地 讨论 以 上 问题 。 


7.1.1 数据 过 载 

在 增强 现实 中 提供 大 量 的 信息 将 迅速 导致 纷乱 的 呈现 ， 使 得 用 户 很 难 直 接 从 这 些 数据 中 
获取 有 效 信 息 。 由 于 增强 现实 经 常 采用 智能 手机 等 有 限 的 显示 空间 ， 这 个 问题 变 得 尤为 严 
重 。Azuma 等 人 [2001] 将 其 定义 为 数据 密度 增加 。 他 们 给 出 了 两 种 互补 的 数据 处 理解 决 方 
案 。 第 一 种 解决 方案 是 通过 数据 过 滤 来 减 小 数据 量 [Feiner et al. 1993a] [Julier et al. 2002]. 
第 二 种 解决 方案 是 创造 一 种 可 视 化 布局 来 避免 与 其 他 重要 信息 之 间 的 干扰 。Spence[2007] 将 
这 种 信息 可 视 化 中 的 数据 密度 问题 称 为 数据 过 载 。 

和 通过 开发 架构 模型 来 解决 数据 过 载 的 问题 [Haber and McNabb 
1990] [Card et al. 1999]。 这 些 模型 通常 包含 三 个 步骤 : 数据 转换 、 视 觉 映 射 以 及 视角 转换 
( 见 图 7.3 ) 。 

o 数据 转换 通过 过 滤 或 聚集 数据 点 来 减少 数据 量 。 

o 视觉 映射 创建 颜色 和 形状 等 数据 可 视 结构 。 
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o 视角 转换 决定 了 位 置 和 比例 等 视 沉 结构 特性 ， 解 决 了 布局 问题 





视角 转换 
图 7.3 可 视 化 流程 包含 三 个 阶段 : 数据 转换 、 视 觉 映 射 以 及 视角 转换 


7.1.2 ”用户 交互 


与 手绘 注释 不 同 ， 计 算 机 支持 的 可 视 化 的 核心 部 分 是 交互 式 探索 数据 的 能 力 。 在 信息 可 
视 化 领域 ， 用户 界面 的 设计 主要 受 Shneiderman[1996] 的 “信息 搜索 准则 ”的 影 啊 : 

o 概述 : 获取 整个 集合 的 概述 

e 放大 : 放大 感 兴趣 区 域 。 

o weet: 滤 除 不感 兴趣 的 项 。 

© 根据 需求 的 细 广 :选择 单个 项 或 群 组 ， 并 在 需要 时 获取 细 广 。 

Shneiderman 并 没有 打算 将 这 些 步 又 定 为 规范 [Craft and Cairns 2005]， 然 而 很 多 成 功 的 
oak 基于 这 一 准则 设 定 的 。 因 此 ， 人 情境 可 视 化 的 设计 者 也 应 参照 这 些 建 议 ， 因 为 
尼 们 也 可 能 会 支持 用 户 获 取 数 据 集中 有 价值 的 数据 


7.1.3 注册 误差 


与 传统 可 视 化 相 比 ， 情 境 可 视 化 有 一 个 额外 的 需求 ， 即 需要 注册 在 真实 环境 中 存在 的 物 
件 。 跟 踪 误 差 可 能 导致 注 册 的 不 准确 ， 造 成 增强 与 真实 环境 中 物体 的 失 配 。 为 了 解决 这 个 问 
题 ， 可 视 化 需要 考虑 注册 的 准确 性 。 例 如 ， 误 差 可 能 会 通过 将 只 实 世界 上 下 文 的 虚拟 副本 整 
合 到 可 视 化 传递 给 用 户 〈 见 图 7.4 )。 





图 7.4 a) 注册 误差 导致 虚拟 内 容 和 真实 世界 上 下 文 的 失 配 ， 在 这 个 例子 中 指 的 是 发 动 
机 舱 。b) 注册 误差 可 以 通过 整合 情境 副本 来 解决 ， 在 这 个 例子 中 将 车 的 轮廓 进 
行 可 视 化 (由 Denis Kalkofen 提供 ) 


7.1.4 Marit 
可 视 化 通常 以 某 种 方式 强调 数据 的 相关 部 分 来 引导 用 户 注 意 这 些 信息 。 因 为 这 类 信息 在 


其 他 信息 中 并 不 突出 ， 如 果 没 有 这 种 强调 ， 类 似 的 信息 就 可 能 被 忽略 。 在 情境 可 视 化 中 ， 用 
户 的 注意 力 被 引导 至 场景 的 重要 部 分 ， 而 真实 环境 中 不 相关 的 方面 不 会 分 散 注意 力 。 实现 这 
一 结果 需要 避免 可 视 化 和 丰 实 环境 之 间 的 视觉 干扰 。Kalkofen 等 人 [2007] 将 这 种 挑战 定义 
为 增强 现实 中 的 聚焦 以 及 上 下 文 可 视 化 问题 : 场景 的 相关 部 分 为 用 户 的 聚焦 ， 而 其 余 场景 则 
提供 了 上 下 文 。 如 图 7.5 所 示 ， 通 过 强调 焦点 部 分 的 内 容 来 引导 用 户 的 注意 力 ， 通 过 虚 化 其 
余部 分 来 避免 干扰 。 





图 7.5 通过 强调 可 视 化 的 焦点 可 以 避免 背 景 的 干扰 ， 引 导 用 户 的 注意 (由 Denis Kalkofen 
提供 ) 


增强 信息 的 放置 也 可 以 导致 可 视 化 和 真实 环境 之 间 的 视觉 干扰 ， 这 可 能 会 导致 被 增强 的 
真实 世界 的 对 象 和 其 他 重要 地 标的 遮挡 。 通 过 开发 视图 管理 技术 ， 可 以 利用 重组 虚拟 内 容 来 
yet FIX PP UF [Bell et al. 2001] [Grasset et al. 2012]. 


7.1.5 时间 一 致 性 

与 传统 可 视 化 相 比 ， 增 强 现 实 可 视 化 的 一 个 重要 区 别 是 真实 环境 并 不 是 静止 的 ， 而 是 随 
时 间 改 变 的 。 例 如 ， 人 或 车 可 能 会 从 视频 图 像 中 经 过 ， 或 者 照明 条 件 可 能 会 改变 。 图 7.6 展 
示 了 一 辆 车 内 部 的 可 视 化 ， 从 中 可 以 清晰 地 看 出 黄 车 的 内 部 结构 ， 然 而 同样 的 可 视 化 在 红 车 
中 却 被 遮蔽 。 





a) RF 


图 7.6 a) 可 视 化 清晰 地 展示 了 车 内 部 情况 。b) 靖 色 选择 不 当 严 重 影响 了 让 挡 部 分 可 视 
化 的 感知 效果 (由 Denis Kalkofen H4, Ul #245) 
， 藤 仿 增 强 可 能 在 一 定时 间 内 是 BREN 而 在 一 段 时 间 之 后 将 不 再 有 效 。 如 果 我 们 
ed 臻 有 效 性 ， 和 情境 可 视 化 必须 可 以 适应 变化 的 环境 条 件 。 人 然而 过 于 频繁 或 强烈 的 适 
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应 也 是 不 可 取 的 ， 因 为 这 样 会 干扰 用 户 。 可 视 化 必须 以 时 间 一 致 的 方式 展现 。 这 对 于 约束 布 
局 是 非常 重要 的 ， 即 简单 的 视点 改变 会 引入 显著 的 变化 。 


7.2 ”可视化 注册 


我 们 从 注册 的 问题 开始 来 讨论 情境 可 视 化 方法 。 需 要 注意 的 是 ,情境 可 视 化 是 在 真实 环 
境 上 的 全 加 ， 增 加 的 物体 可 能 移动 也 有 可 能 不 移动 。 我 们 可 以 在 此 基础 上 区 分 两 种 情况 : 

© 潜在 移动 对 象 的 本 地 坐标 可 视 化 。 

o 相对 于 静止 物体 或 物理 位 置 的 全 局 坐标 可 视 化 。 

这 两 种 情况 导致 了 不 同类 型 的 可 视 化 设计 。 


7.2.1 本 地 注册 情境 可 视 化 


在 本 地 情况 下 ， 为 了 应 用 情境 可 视 化 ， 我 们 必须 首先 检测 到 相对 于 本 地 参考 坐标 系 的 目 
标的 存在 。 当 这 一 检测 步骤 依赖 动态 识别 (例如 图 像 搜 索 ) 时 ， 则 参考 的 结果 具有 潜在 的 不 
唯一 性 。 这 种 二 义 性 可 以 是 有 意 为 之 的 。 例 如 ， 广 告 可 以 通过 相对 特定 品牌 标志 进行 表示 。 
只 要 这 个 标志 出 现 就 会 进行 情境 可 视 化 。 男 一 个 有 关 可 视 化 动态 目标 检测 的 例子 来 自 White 
等 人 [2006]， 通 过 描述 虚拟 单据 来 支持 植物 学 家 的 野外 考察 。 该 系统 可 以 通过 图 像 识别 的 方 
法 来 识别 置 于 仪表 夹板 上 不 同 种 类 的 叶子 。 


7.2.2 全 局 注册 情境 可 视 化 


如 果 可 视 化 是 相对 于 一 个 固定 的 目标 或 一 个 特定 的 位 置 进行 的 ， 那么 可 以 在 全 局 绝对 坐 
标 中 表达 。 在 这 种 情况 下 ,需要 具备 一 个 全 局 定位 系统 ， 不 严格 要 求 必须 检测 到 参考 目标 。 
如 果 没 有 进行 目标 检测 ， 那 么 在 一 个 数据 库 被 创建 后 就 面临 着 环境 已 经 被 改变 的 危险 ， 例 如 
相关 目标 已 经 不 在 那里 。 全 局 定位 的 一 个 可 能 的 解决 方案 是 首先 需要 建立 一 个 粗略 的 全 局 定 
位 (例如 ,使 用 GPS)， 然 后 在 附近 搜索 已 知 目 标 物体 。 

全 局 参照 的 一 个 优点 是 情境 可 视 化 可 以 很 容易 地 被 放 在 相对 于 其 他 全 局 注册 可 视 化 的 几 
何 关系 中 。 这 种 关系 可 以 通过 动态 布局 的 生成 等 算法 获得 ( 见 7.3 节 )。 

列举 一 个 全 局 参照 可 视 化 的 例子 ， 即 在 增强 现实 下 考虑 地 下 基础 设施 的 可 视 化 [Schall et 
al. 2008]。 公 用 事业 公司 等 基础 设施 供应 商 为 他 们 的 地 下 资产 维护 地 理 空 间 数据 ， 如 电力 线 
或 燃气 管道 。 在 维护 过 程 中 ， 需 要 在 现场 定位 这 些 资产 的 位 置 。 维 修 人 员 可 以 导航 到 指定 位 
置 ， 并 观察 到 相关 基础 设施 的 情境 可 视 化 。 在 这 种 情况 下 ， 可 视 化 数据 精确 地 参照 全 局 地 理 
坐标 ,但 不 一 定 与 任何 (可 见 ) 对象 相关 。 

另 一 个 增强 现实 可 以 参照 全 局 信息 进行 可 视 化 ， 而 不 是 依赖 于 一 个 特定 物理 对 象 的 例子 
是 传 感 吕 数据 可 视 化 。 假 定 环保 工作 者 、 城 市 规划 者 和 其 他 专业 工作 人 员 和 定期 访问 某 一 地 点 
以 收集 与 其 专业 活动 相关 的 信息 。 作 为 专业 工作 人 员 现 场 调查 的 一 部 分 或 者 作为 永久 监测 基 
础 设施 一 部 分 的 传感器 被 部 署 在 整个 环境 中 ， 可 以 提供 重要 的 环境 信息 ， 例 如 ， 空 气 污染 或 
潮湿 度 水 平 。 与 将 这 些 传感器 现场 观测 的 数据 种 回 规划 办 公 室 进 行 分 析 相 比 ， 在 现场 直接 观 
察 环境 中 收集 的 传感器 数据 更 为 有 益 。 

这 种 方法 由 White 和 Feiner[2009] 应 用 于 Sitelens 中 ， 该 系统 使 用 从 移动 和 固定 的 传 感 
需 获 得 的 数据 来 显示 纽约 市 的 一 氧化 碳 含 量 。Veas 等 人 [2012a] 提出 了 Hydrosys AZ, HK 
系统 基于 一 种 广泛 布置 的 全 局 传感器 网 络 显示 瑞士 阿尔 卑 斯 山 的 水 文 信息 ， 收 集 了 与 冰川 检 
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测 相 关 的 水 平面 或 温度 信息 ( 见 图 7.7 ) 。 





图 7.7 Hydrosys 系统 展示 了 全 局 传 感 硕 网络 中 各 个 站 点 的 位 置 以 及 绘制 的 插值 温度 测 
ZRF (H Eduardo Veas 和 Ernst Kruijff 提供 ， 见 彩 插 ) 


7.2.3 注册 不 确定 性 


情境 可 视 化 需要 精确 地 对 虚拟 场景 和 真实 场景 元 素 进行 注册 。 影 响 注 册 准 确 性 的 原因 
有 两 种 。 首 先 ， 虚 拟 对 象 的 位 置 和 方向 可 能 与 其 在 真实 场景 中 对 应 部 分 的 位 置 和 方 回 不 是 
完全 匹配 对 应 。 其 次 ， 虚 拟 摄 像 机 的 位 置 和 方 呵 可 能 与 真实 摄像 机 的 位 置 和 方向 不 是 完全 
匹配 对 应 。 这 两 种 类 型 的 误差 都 会 降低 可 视 化 的 质量 ， 因 为 它们 都 会 导致 二 加 的 图 像 无 法 
与 真实 场景 中 的 物体 正确 对 准 。 因 此 ， 如 果 它 们 指向 错误 的 物体 则 增加 的 内 容 就 会 混 淆 其 
至 误导 用 户 。 

通过 使 情境 可 视 化 适应 这 种 注册 的 不 确定 性 ， 可 以 在 一 定 程度 上 解决 上 述 问 题 。 在 许多 
跟踪 技术 中 都 可 以 量化 评估 追踪 误差 。 利 用 几何 关系 (例如 在 场景 图 像 中 编码 ) 可 以 将 误差 
估计 转换 为 屏幕 空间 误差 。 这 样 的 屏幕 空间 误差 可 用 来 将 可 视 参 数 化 ， 从 而 达到 增加 容错 能 
力 的 目的 。 

MacIntyre 等 人 [2002] 提出 了 多 种 可 容错 的 可 视 化 类 型 。 其 中 一 种 方法 放大 了 幻影 对 象 
的 轮廓 ， 从 而 保证 最 终 的 屏幕 配 准 图 像 在 出 现 注册 误差 时 仍然 可 以 覆盖 对 应 的 真实 物体 。 男 
一 个 想法 是 动态 地 将 放置 在 一 个 真实 对 象 上 方 的 文本 标签 切换 为 使 用 标签 和 对 象 之 间 连 线 的 
代理 。 后 者 对 注册 误差 的 鲁 棒 性 更 强 ， 因 此 可 用 于 注册 误差 超出 一 定 国 值 的 情况 。 


7.3 注释 和 标记 


情境 可 视 化 的 一 个 主要 优点 是 可 以 通过 注释 的 形式 呈现 真实 场景 中 物体 附近 的 信息 。 根 
据 Wither 等 人 [2009] 给 出 的 定义 ， 注 释 必须 始 终 包含 一 个 与 真实 物体 销 接 的 空间 位 置 相 关 
组 件 ， 以 及 一 个 介绍 真实 场景 中 不 存在 的 额外 信息 的 空间 位 置 独立 组 件 。 这 个 定义 非常 广 
泛 ， 它 包含 了 许多 交互 导航 系统 领域 的 应 用 ， 如 导航 、 旅 游 或 维修 指示 。 或 许 最 重要 的 一 类 
注释 就 是 文本 标签 ， 它 可 以 解释 或 提示 一 些 上 只 实 场景 相关 的 信息 。 


7.3.1 标记 基础 


在 传统 的 2D 地 图 中 ， 对 文本 标签 的 放置 已 经 有 了 广泛 研究 ， 但 在 3D 的 情况 下 ， 标 答 
的 放置 有 很 大 不 同 ， 因 此 变 得 更 为 复杂 。 本 节 将 解释 这 些 应 用 中 的 基本 考量 。 首 先 ， 我 们 必 
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须 分 辨 外 部 标签 和 内 部 标签 。 其 次 ， 我们 需要 找到 合适 的 标签 目标 位 置 。 再 次 ， 我们 需要 选 
择 放 置 标签 的 屏幕 空间 的 适当 表现 形式 。 最 后 ， 我 们 必须 选择 可 以 适应 任何 连 线 的 锁 点 。 

1. 内 部 标签 和 外 部 标签 

标签 放置 的 准则 有 两 个 : 内 部 和 外 部 。 内 部 标签 直接 放置 在 目标 的 轮廓 内 。 如 果 目 标 被 
部 分 遮挡 ， 标 签 应 被 放置 于 可 见 部 分 的 轮廓 上 以 避免 混淆 。 与 内 部 标签 相反 ， 外 部 标签 应 被 
放置 在 目标 轮廓 外 部 临近 目标 的 位 置 以 避免 混淆 。 外 部 标签 使 用 连 线 将 标签 和 所 指向 的 目标 
轮廓 内 部 的 锚 点 相连 。 

2. 放置 目标 

在 三 维 场景 的 视图 中 ， 放 置 标签 应 遵循 以 下 通用 规范 : 

o 标签 应 放置 于 所 指向 的 目标 附近 。 

e (EAMES. 

e 外 部 标签 不 应 置 于 其 他 重要 目标 上 。 

e 每 条 连接 线 的 长 度 应 尽 可 能 的 短 。 

e 尽量 避免 连接 线 以 及 标签 的 交叉 。 

e 应 保持 时 间 连 贯 性 ， 即 标签 位 置 不 应 在 帧 间 突 然 地 改变 。 

上 述 准则 在 数学 上 形成 一 个 约束 优化 问题 ， 即 NP 难 准 则 ， 这 可 以 通过 启发 式 优 化 策略 
来 解决 。 一 些 已 经 发 布 的 方法 在 给 定 标签 的 某 种 排序 的 情况 下 ， 使 用 简单 的 贪 禁 算 法 就 可 以 
找到 每 个 标签 最 为 合适 的 位 置 [Azuma and Furmanski, 2003]. 

3. KARE 

为 了 解决 优化 问题 ， 必 须 有 某 种 屏幕 区 域 的 表征 方法 来 确定 该 点 是 否 被 需 标注 目标 、 不 
应 被 干扰 的 其 他 重要 目标 或 是 标签 和 连 线 可 以 随意 放置 的 背景 (如 草地 或 天 空 ) 占用 。 这 种 
区 域 表 征 可 以 是 离散 的 ， 即 基于 屏幕 对 齐 的 物体 包围 盒 [Bell et al. 2001]， 也 可 以 是 采样 的 ， 
通过 任意 间距 的 二 维 数组 给 定 (不 需要 与 屏幕 分 辩 率 相同 )。 在 这 两 种 情况 下 ， 必 须 去 除 隐 
藏 表面 以 保证 准确 识别 目标 间 的 遮挡 。 

采样 表征 可 通过 在 GPU 上 将 光栅 化 场景 目标 写 人 id 缓冲 区 来 确定 。 不 幸 的 是 ， 读 取 id 
缓冲 区 会 引入 明显 的 延迟 。 因 此 ，Hartmann 等 人 [2004] 在 CPU 上 进行 光栅 化 ， 而 Stein 和 
Décoret [2008] 在 GPU 上 执行 整个 算法 。 

4. 选择 锚 点 

如 果 应 用 程序 没有 给 出 与 连接 线 相 连接 的 锚 点 ， 需 要 通过 合适 的 方式 进行 确定 。 一 般 
情况 下 ， 销 点 应 当 在 当前 帧 中 目标 的 可 见 表 面 选取 。 对 于 凸 目标 (或 是 只 能 获取 目标 的 包围 
盒 )， 质 心 是 一 个 合理 的 选择 。 相 反 ， 对 于 任意 形状 的 目标 ， 在 目标 完全 消失 前 需要 使 用 一 
个 更 加 和 鲁 棒 性 的 迭代 方法 来 进行 形态 细 化 并 将 锚 点 分 配 到 最 后 剩余 的 位 置 。 


7.3.2 ”优化 技术 


在 理解 了 目标 标签 放置 之 后 ， 我 们 可 以 将 其 构想 为 一 个 优化 问题 。 因 为 该 问题 需要 针对 
每 一 帧 图 像 进行 求解 ， 因 此 需要 高 效 进行 。 适 当 的 优化 方法 包括 : EA ok a) 
规划 ; 可 在 GPU 上 进行 平行 评估 的 稠密 方法 。 

1. 使 用 力 场 优化 

Hartmann 等 人 [2004] 将 标签 放置 表示 为 图 像 空间 中 力 场 的 优化 问题 。 应 用 于 标签 放置 
的 力 场 模型 包括 : 


© 从 物体 的 二 维 投影 到 屏幕 空间 的 吸引 力 。 

e 对 象 边 界 的 一 个 排斥 力 〈 使 标签 完全 被 放置 在 内 部 或 外 部 )。 

e 来 和 目 其 他 物体 投影 的 排斥 力 。 

e KARWAN. 

e 来 目 其 他 标签 的 排斥 力 。 

所 有 的 力 场 通过 加 权 平 均 进 行 求 和 。 首 先 对 标签 位 置 进行 启发 式 初始 化 。 然 后 ， 标 签 沿 
联合 力 场 梯度 方 癌 运动 ， 直 至 找到 极 小 值 。 使 用 偏 回 于 更 大 标签 的 简单 贪心 启发 式 算法 来 动 
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2. 使 用 包围 盒 优 化 

Bell 等 人 [2001] 使 用 屏 大 对 准 二 维 包 围 盒 估 计 二 维 投 影 。 减 去 包围 盒 占 据 的 空间 后 的 
剩余 部 分 被 认为 是 可 以 放置 标签 的 部 分 。Bell 等 的 算法 首先 确定 需要 加 标签 对 象 的 可 见 部 分 
的 大 小 。 如 果 可 见 部 分 足够 大 就 可 以 放置 内 部 标签 ; 否则 算法 搜索 合适 的 位 置 来 放置 外 部 标 
签 。 外 部 标签 通过 贪心 算法 按照 从 前 到 后 的 顺序 放置 ， 也 可 以 使 用 其 他 优先 级 。 在 放置 一 个 
标签 后 ， 被 占用 的 区 域 禁止 放置 其 他 标签 。 

3. 在 GPU 上 的 优化 

Stein 和 Decoret[2008] 利用 现代 GPU 的 计算 能 力 实 现 了 一 种 考虑 到 标签 所 有 可 能 放置 
位 置 的 实时 贪心 优化 。 标 签 放 置 的 顺序 利用 Voronoi 图 来 近似 地 由 内 ( 即 从 场景 中 心 ) 向 外 
( 即 朝 问 屏 幕 边缘 ) 排列 锚 点 。 这 种 算法 将 标签 的 禁用 区 域 泻 染 为 纹理 表征 ， 考 虑 到 了 重要 
的 对 象 、 其 他 标签 和 连 线 。 最 后 ，GPU 程序 系统 地 测试 剩余 位 置 并 做 出 优化 。 


7.3.3 ”时间 一 致 性 

如 果 针 对 每 帧 图 像 独 立 进行 优化 问题 求解 ， 标 签 的 放置 会 在 帧 间 出 现 显著 的 变化 ， 从 而 
导致 遮挡 的 出 现 ( 见 图 7.8 ) 或 跳跃 式 的 变化 ( 见 图 7.9 )。 为 了 解决 这 种 问题 ， 可 以 引入 一 
个 针对 较 大 标签 偏 移 的 滞后 约束 。 此 外 ， 如 果 标 签 必须 移动 较 大 距离 ， 可 以 用 连续 几 个 动画 


DAL TINY 





WA ae | ， i ae k 
图 7.8 即使 在 一 个 视点 中 找到 合理 布局 ， 也 会 在 其 他 视点 中 产生 遮挡 ， 如 C1) 标签 互 
PAIF; (I) 标签 遮挡 感 兴趣 目标 ; (M) 连接 线 互 相交 叉 (由 Markus Tatzgern 
和 Denis Kalkofen 提供 ) 


二 维 图 像 空间 中 的 标签 布局 不 能 解决 在 三 维 场景 中 运动 物体 的 时 间 一 致 性 问题 。 因 为 在 
世界 空间 中 标签 可 以 随 物体 移动 ， 三 维 布 局 可 以 更 好 地 解决 这 个 问题 [Pick et al. 2010]. FA 
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此 ， 具 有 时 间 一 致 性 的 视图 管理 方法 可 以 计算 一 个 具有 三 维 几 何 的 标签 的 约束 布局 。 一 个 
三 维 标 签 包含 一 个 三 维 注释 牌 、 一 个 三 维 极 线 (相当 于 二 维 连 接线 ) 和 一 个 真实 场景 中 物 
体 的 销 点 。 在 图 像 空间 中 只 允许 调整 极 线 的 长 度 和 注释 牌 的 微小 位 移 ， 而 在 对 象 空间 中 极 
线 的 方 问 是 固定 不 变 的 。 图 7.10 说 明了 上 述 问题 ， 看 起 来 像 是 一 个 “ 刺 狂 ”[Tatzgern et al. 
2014b]。 标 签 放置 具有 足够 的 和 目 由 度 来 生成 高 质量 的 布局 ， 同 时 没有 受到 时 间 一 致 性 问题 的 
影 啊 。 





图 7.9 在 没有 考虑 到 时 间 一 致 性 时 ， 旋 转 相 机 可 能 会 导致 两 个 标签 (图 中 用 红色 和 蓝 色 
Au Appi) 意外 颠倒 顺序 (由 Markus Tatzgern 和 Denis Kalkofen 提供 ， 见 彩 插 ) 





图 7.10 ”在 密集 标签 放置 时 强制 使 用 了 时 间 一 致 性 (由 Markus Tatzgern 和 Denis Kalkofen 
提供 ) 


7.3.4 图 像 导 引 放置 


在 增强 现实 中 ， 通 常会 出 现 只 有 环境 中 对 象 的 一 个 子 集 是 应 用 程序 所 了 解 的 。 在 这 种 情 
况 下 ， 应 该 分 析 视 频 图 像 本 身 中 具有 较 少 视觉 关注 度 的 区 域 ， 标 签 只 需要 被 放置 在 不 遮挡 应 
用 程序 未 知 的 显著 对 象 的 区 域 即 可 。 为 此 ，Leykin 和 Tuceryan [2004] 使 用 机 器 学 习 方 法 自 
动 确 定 纹 理 背 景 下 文本 的 可 读 性 。Rosten 等 人 [2005] 同样 为 了 实现 这 个 目标 提出 一 种 图 像 
搜索 方法 ,根据 兴趣 点 的 特征 来 搜索 图 像 中 不 具有 这 些 特征 的 区 域 。Tannka 等 人 [2008] 将 
屏幕 按照 矩形 网 格 细 分 并 通过 RGB (A. HSV 颜色 空间 中 饱和 度 方差 以 及 YCbCr 颜色 空间 
中 每 一 个 网 格 的 亮度 方差 加 权 计 算 可 视 度 。 然 后 注释 被 放置 在 一 个 具有 低 可 视 度 的 网 格 中 。 
Grasset 等 人 [2012] 分 析 了 输入 视频 的 显著 性 并 将 标签 放置 在 显著 性 较 低 的 位 置 ， 这 样 就 不 
太 会 覆盖 真实 场景 中 的 重要 信息 。 例 如 ， 可 以 在 天 空中 放置 标签 ( 见 图 7.11 ) 。 
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a) b) 


图 7.11 a) 单纯 地 放置 标签 遮挡 了 感 兴趣 的 对 象 。b) 显著 性 引导 放置 的 标签 更 倾向 于 
天 空 等 空旷 区域， 避免 了 遮挡 (由 Raphael Grasset 提供 ) 


7.3.5 wlt 


登 加 的 信息 应 该 处 于 一 个 容易 理解 的 水 平 。 然 而 ， 我 们 不 仅 需 要 确保 支持 有 效 的 认 知 ， 也 
要 保证 易 读 性 。 这 里 的 易 读 性 指 的 是 底层 感知 因素 ， 包 插足 够 大 尺寸 和 对 比 度 的 又 加 信息 。 

自 先 文本 标签 必须 由 用 户 阅 读 ， 因 此 易 读 性 与 文本 标签 有 关 ， 同 时 也 与 各 种 图 形 信息 相 
关 。 如 果 背 景 过 于 显著 ,使 用 了 强烈 的 色彩 或 包含 高 频 纹 理 ， 那 么 将 计算 机 生成 的 信息 加 在 
卫 播 视频 背景 上 就 会 带 来 很 多 问题 。 由 于 无 法 获得 一 个 完全 不 透明 的 苹 加 ， 色 彩 的 最 大 保 真 
度 受 限 ， 因 此 这 种 不 受 欢 迎 的 情况 在 光学 透视 系统 中 更 为 严重 。 

如 有 果 可 以 事先 了 解 真 实 世 界 中 物体 及 其 在 场景 中 的 全 部 视觉 特性 ， 视 图 管理 就 可 以 确定 
标签 的 最 佳 放 置 等 重要 元 素 ， 从 而 在 很 大 程度 上 避免 易 读 性 较 低 的 情况 。 

Gabbard 等 人 [2007] 研究 了 光学 透视 式 显示 系统 中 不 同 背 景 下 的 文本 易 读 性 。 与 预想 的 
结果 类 似 ， 他 们 所 进行 的 用 户 研 究 结 果 表 明 用 户 在 搜索 任务 中 的 表现 在 很 大 程度 上 受 背 景 纹 
理 和 文字 绘制 风格 的 影响 。Gabbard 等 考虑 了 在 单一 颜色 背景 告示 板 下 遮挡 背景 的 文字 ， 利 
用 轮 廊 和 阴影 强化 了 文本 信息 。 背 景 和 强化 颜色 (例如 告示 板 的 颜色 、 轮 廓 或 阴影 ) 的 对 比 
以 及 强化 颜色 和 文本 颜色 的 对 比 是 易 读 性 的 决定 性 因素 。 需 要 注意 的 是 ， 使 用 告示 板 文本 时 
不 可 以 大 面积 遮挡 育 景 区 域 。 

同一 个 研究 组 [Gabbard et al. 2006] 早期 的 研究 表明 饱和 的 绿色 可 以 成 为 一 种 效果 很 好 
的 强化 颜色 ， 特 别 是 在 动态 的 环境 中 ， 通 过 将 强化 颜色 适应 背景 可 以 取得 最 好 的 效果 。 例 


如 ，Mendez 等 人 [2010] 确认 了 前 景物 体 (如 标签 ) 和 背景 物体 的 视觉 显著 性 仅 存 在 极其 微 
小 的 差异 。 


7.4 XRRR 


增强 现实 的 一 个 重要 应 用 就 是 人 工 移 除 真实 场景 中 物体 的 遮挡 ， 这 被 称 作 X 射线 可 视 
化 ， 类 似 于 在 许多 科幻 小 说 中 的 超 能 力 ， 像 超人 一 样 可 以 看 穿 固态 物体 。 被 隐藏 物体 的 合成 
视图 可 以 显示 在 真实 场景 的 上 下 文中 ， 从 而 可 以 帮助 观察 者 推 新 可 视 物 体 和 隐藏 物体 间 的 空 
站 和 语义 关系 。 由 于 不 能 满足 深度 感知 的 基本 规则 ， 单 纯 在 一 个 丰 实 场景 上 蕉 加 一 个 虚拟 物 
体 ( 见 图 7.12a) 并 不 能 获得 满意 的 结果 。 类 似 地 ， 单纯 使 用 透明 虚拟 物体 也 无 法 解决 这 个 
问题 ( 见 图 7.12b)，Buchmann 等 人 [2005] 的 人 研究 结果 表明 单一 的 透明 会 破坏 空间 关系 ， 同 
时 也 会 对 显示 产生 干扰 。 

一 个 更 好 地 实现 XXX 射线 可 视 化 的 方法 是 目 适 应 地 泻 染 遮挡 物体 的 透明 度 ， 其 目标 是 示 
出 被 遮挡 物体 的 足够 信息 以 便于 理解 ， 同 时 保留 到 加 物体 的 主要 结构 特征 ， 这 种 表示 方法 在 
基于 计算 机 的 绘图 中 和 常 被 称 为 幻影 [Feiner and Seligmann 1992]. 





a) b) 


图 7.12 a) 单纯 在 真实 场景 上 短 加 了 隐藏 合成 物体 。b) HATE NA me whe 
(由 Denis Kalkofen 提供 ) 


7.4.1 物体 空间 幻影 


通过 扩展 本 书 第 5 草 中 介绍 的 幻影 演 染 方法 可 以 实现 增强 现实 幻影 。 ete Zia ULM 
仅 通 过 z 缓存 分 为 全 部 可 视 信息 和 全 部 遮挡 信息 。 与 之 相对 纠 影 可 以 通过 决定 每 一 个 虚拟 
物体 遮蔽 像素 的 遮蔽 (或 透明 ) 程度 来 产生 ， EE steerage 

例如 ， 可 以 通过 基于 物体 主要 曲率 的 线性 方程 设置 透明 度 来 产生 幻影 。 对 于 一 个 给 定 的 
幻影 ， 曲 率 可 以 以 独立 的 顶点 或 纹理 的 方式 被 提前 计算 并 存储 。 在 应 用 一 系列 的 尺 变换 度 和 
偏差 补偿 后 ， 通 过 查找 或 插值 每 个 片段 的 曲率 转换 成 透明 度 。 这 种 方法 的 基本 原理 是 幻影 表 
面 强 烈 弯 曲 的 部 分 定义 了 其 形状 和 不 透明 性 ， in epi om 

丸 一 个 可 以 用 来 控制 透明 度 的 方法 是 表面 法 线 和 观看 方 同 的 点 当 弘 ] 影 物体 轮廓 的 表 

面 法 线 和 观看 方 回 垂直 时 ， 点 积 为 0。 与 之 相对 ， 在 法 线 回 量 方向 观察 的 表面 的 点 积 为 1 
这 种 属性 可 以 很 容易 地 转换 为 透明 度 。 轮 廓 和 主 曲 率 在 传达 物体 形状 信息 方面 是 互补 的 ， 二 
者 可 以 同时 使 用 。 
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7.4.2 图 像 空 间 幻 影 


在 物体 空间 中 计算 的 所 有 属性 (包括 轮廓 或 曲率 等 ) 通常 会 受 注册 误差 的 影响 。 任 何在 
实物 体 和 其 幻影 的 失 配 都 会 导致 幻影 几何 的 局 部 偏 移 ， 这 些 偏 移 会 对 用 户 产生 干扰 。 此 外 ， 
在 增强 现实 中 ,场景 中 部 分 (或 所 有 ) 真实 物体 通常 是 未 知 的 ， 因 此 不 能 用 作 幻 影 。 有 关 这 
些 真 实物 体 的 信息 只 能 通过 其 在 视频 中 的 图 像 得 到 。 然 而 ， 我们 可 以 利用 下 述 假 设 ， 即 我 们 
需要 显示 隐藏 的 物体 并 将 视频 中 所 有 可 见 物 体 视 作 谈 蔽 物 。 

为 了 实现 这 一 目标 ， 我 们 可 以 尝试 识别 视频 图 像 中 传达 可 视 物体 形状 的 形状 线索 ， 同 时 
设置 与 其 重要 性 对 应 的 每 个 像素 的 透明 性 作为 形状 线索 。 一 个 寻找 形状 线索 的 简单 方法 是 使 
用 边缘 检测 器 。 在 识别 出 一 幅 图 像 中 边缘 的 像素 之 后 (例如 使 用 Canny 边缘 检测 )， 边 缘 可 
以 被 强人 化。 例如， 在 演 染 一 幅 以 视频 图 像 为 痛 景 、 虚 拟 物 体 合 加 在 其 上 的 基础 图 像 后 ， 可 以 
使 用 一 种 不 透明 颜色 在 基础 图 像 上 对 边缘 进行 泻 染 , 产生 一 种 类 似 于 隐藏 线 图 形 的 风格 化 效 
果 。 通 过 这 种 方法 ， 可 以 制造 一 种 粗略 的 约 影 ， 保 留 了 真实 和 虚拟 物体 之 间 某 种 重要 的 深度 
关系 。 

人 工 着 色 边 缘 是 一 种 强烈 的 视觉 和 干扰， 然而 从 整 帧 视频 中 提取 所 有 边缘 可 能 会 导致 过 于 

杂乱 的 干扰 。 抑 制 杂 乱 干 扰 是 所 有 强调 形状 线索 技术 的 统一 要 求 。 合 理 防 止 过 度 使 用 形状 
线索 的 方法 就 是 将 其 限制 在 虚拟 物体 周围 的 区 域 。 这 些 区 域 可 以 手动 确定 ， 例如 让 用 户 放置 
一 个 魔 镜 [Mendez et al. 2006]， 或 者 计算 虚拟 物体 在 屏幕 上 的 投影 区 域 。 将 虚拟 物体 泻 染 到 
模板 或 庆 缓 冲 区 并 在 缓冲 区 应 用 距离 转换 ， 可 以 产生 一 个 边缘 倾斜 的 区 域 ， 以 此 确定 形状 
线索 的 透明 度 ， 在 本 书 中 指 的 是 边缘 像素 ( 见 图 7.13 )。 距 离 转换 计算 可 以 在 GPU 上 进行 
[Rong and Tan 2006]. 





图 7.13 API, ANE RURAL HITED o aware 重要 的 形状 线索 
之 后 ,应 用 了 二 维 距离 转换 来 使 得 遮蔽 物 看 起 来 更 为 真实 (由 Denis Kalkofen 
fet, LEIA) 


从 图 像 中 提取 边缘 是 一 种 传达 形状 信息 的 有 效 方法 ， 但 是 容易 产生 杂乱 干扰 ， 同 时 无 法 
传送 稠密 遮 珊 物 的 观感 。 如 果 这 种 稠密 遮蔽 物 是 可 以 接受 甚至 是 有 意 为 之 的 ， 则 可 以 对 边缘 
图 像 应 用 距离 转换 来 确定 透明 度 。 这 一 操作 将 导致 边缘 附近 更 大 的 喧 挡 区 域 ， 从 边缘 回 外 透 
明度 逐渐 增加 。 这 样 产生 的 可 视 化 效果 类 似 于 前 面 提 到 的 通过 曲率 得 到 的 透明 度 。 

边缘 是 重要 的 图 形 线索 ， 但 并 不 意味 着 是 文 持 空间 感知 的 唯一 有 价值 的 信息 。 一 般 情况 
F, 我 们 需要 保留 图 像 的 视觉 显著 区 域 特征 ， 这 些 通 常 被 定义 为 以 下 对 比 属性 的 联合 效应 ， 
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包括 色调 、 光 度 、 方 问 或 运动 。 已 有 研究 结果 表明 显著 特征 可 以 吸引 用 户 的 视线 [Treisman 
and Gelade 1980], 

we Se HE AY VA a at op N PS ae TFE Le BE IE IE AS J Ge SS AS Ta] RN] YO) EF 
[Itti et al. 1998]。 为 此 ， 需 要 将 图 像 转 换 至 诸如 Lab 的 颜色 空间 ， 直 接 编码 亮度 和 红 — Ae 
和 蓝 - 黄 反 色 ， 并 在 这 种 表示 下 计算 图 像 金 字 塔 。 确 定 每 个 金字 塔 水 平和 每 个 L ab 通道 的 
中 心 差 异 并 组 合 所 有 的 差异 。 随 着 时 间 的 推移 ， 可 以 通过 计算 光度 的 变化 来 考虑 位 移 。 所 有 
这 些 计算 都 可 以 在 片段 着 色 舌 上 有 效 地 进行 。 

Sandor 等 人 [2010b] 使 用 这 种 显著 性 计算 方法 来 确定 幻影 的 透明 度 。 一 个 片段 的 透明 度 
水 平 主要 通过 遮挡 图 像 和 被 遮挡 图 像 的 显著 性 之 间 的 差异 进行 计算 。 

与 Sandor 等 人 [2010b] 提出 的 针对 每 个 像素 确定 显著 性 的 方法 不 同 ，Zollmann 等 人 
[2010] 针对 每 个 区 域 基 于 图 像 的 超级 像素 分 割 计算 显著 性 。 这 种 策略 的 优势 是 图 像 中 一 致 区 
域 的 特征 可 以 被 幻影 利用 。 文 本 化 是 一 个 重要 的 提供 额外 显著 性 测量 的 区 域 属性 。 此 外 还 可 
以 针对 每 个 区 域 确定 透明 度 ( 见 图 7.14 )。 因 为 区 域 是 通过 分 割 视频 图 像 中 的 自然 边界 得 出 
的 ， 通 过 透明 度 调 制 没有 引入 额外 的 空间 频率 ， 从 而 导致 比较 少 的 杂乱 结果 。 





图 7.14 将 具有 同 质 纹理 的 区 域 赋予 某 一 特定 透明 度 水 平 达到 一 致 效果 的 X 射线 可 视 化 
技术 (由 Stefanie Zollmann (t, mM tf) 


74.3 G 缓 冲 希 实现 

纠 影 的 实现 建立 在 用 于 非 真 实感 绘制 的 几何 缓冲 器 (G 缓冲 器 ) 的 基础 上 [Saito and 
Takahashi 1990]。 在 一 个 三 步 泻 染 过 程 中 ， 第 一 步 将 场景 中 独立 的 物体 泻 染 和 人 一 系列 缓冲 
右 ， 第 二 步 对 缓冲 磊 应 用 图 像 处 理 技术 ， 第 三 步 通过 深度 顺序 扫描 缓冲 区 并 从 独立 缓冲 器 中 
汇总 结果 。 

1. 缓冲 器 泻 染 

泻 染 使 用 多 个 G 缓冲 右 ， 每 个 都 包含 属于 特定 群 组 的 场景 物体 的 近似 。 通 过 使 用 这 种 
技术 ， 我 们 可 以 分 离 出 应 用 于 不 同 群 组 的 风格 ， 而 所 有 的 G 缓冲 器 集合 可 以 近似 整个 场景 。 
在 缓冲 冀 泻 染 阶 段 ， 我 们 使 用 常规 的 演 染 管线 来 提取 所 有 用 于 缓冲 器 处 理 阶段 的 必要 信息 。 
场景 在 单一 步骤 横 切 多 个 演 染 目标 ， 即 多 G 缓冲 右 。 每 个 物体 通过 一 个 指定 的 G 缓冲 器 泻 
染 ， 具 体 使 用 哪 一 个 由 其 组 内 成 分 决定 〈( 见 图 7.15 ) 。 





c) 


图 7.15 a) 场景 说 明 。b) 一 个 可 能 的 G 缓冲 器 。 注 意 , G 缓冲 器 不 代表 一 个 深度 层 。 
c) 从 前 至 后 一 系列 G 缓冲 器 的 布局 (由 Erick Mendez 和 Denis Kalkofen 提供 ) 


2. 缓冲 处 理 

对 于 每 一 个 缓冲 器 都 可 以 应 用 图 像 处 理 技 术 计 算 附 加 信息 ， 例 如 检测 边缘 或 者 高 曲率 边 
缘 ， 提 取 特 定 颜色 或 深度 值 的 区 域 ， 或 者 标记 一 个 可 以 用 来 与 用 户 进行 交互 的 特定 区 域 。 菏 
些 技术 不 仅仅 考虑 特定 片段 的 值 ， 还 考虑 到 其 邻 域 、 同 一 G 缓冲 右 中 其 他 缓冲 副 的 片段 值 
或 是 不 同 G 缓冲 器 的 片段 值 。 通 过 这 种 方法 ， 多 个 附加 的 包含 辅助 信息 的 图 像 可 以 被 添加 
到 G Ret at P o 

3. 场景 合成 

在 最 后 的 合成 阶段 ， 通 过 应 用 一 个 从 前 至 后 的 G 缓冲 器 布局 将 一 系列 G 缓冲 器 中 的 信 
息 合 成 为 最 后 的 图 像 ( 见 图 7.15b)。 需 要 注意 的 是 ， 简 单 的 G 缓冲 带 组 合 是 不 够 的 BRA 
的 遮挡 对 于 需要 获得 的 效果 十 分 必要 。 由 于 G 缓冲 器 可 以 在 视图 坐标 和 屏幕 分 辨 率 中 使 用 ， 
因此 这 个 问题 被 简化 为 G 缓冲 器 深度 组 件 的 排序 。 一 旦 获得 了 这 种 排序 ， 我们 就 开始 将 所 
有 片段 组 合 为 一 个 单一 的 输出 。 在 这 个 过 程 中 用 到 的 合成 规则 可 以 任意 改变 一 个 G Bhat 
中 特定 像素 的 贡献 。 例 如 ， 一 个 特定 像素 的 颜色 或 透明 度 可 以 基于 当前 帧 之 前 沿 射线 方 回访 
问 像 素 的 重要 性 进行 修正 。 


7.5 空间 操作 


如 果 一 个 场景 中 密集 地 布 满 了 物体 ， 一 些 临 近 的 可 见 和 隐藏 对 象 必 须 被 同时 显示 ， 使 用 
幻影 不 足以 显示 所 有 的 信息 。 相 反 ， 将 未 被 占用 的 屏幕 空间 与 相关 对 象 的 可 见 性 增加 进行 折 
中 可 能 会 更 有 帮助 。 在 增强 现实 中 ， 可 以 通过 重 置 场景 实现 对 场景 中 物体 的 精确 空间 操作 。 
我 们 可 以 制造 出 某 些 物体 已 经 移动 或 以 其 他 方式 为 隐藏 对 象 腾 出 空间 的 假象 。 移 动 的 物体 和 
显示 出 的 对 象 可 以 是 真实 的 也 可 以 是 虚拟 的 。 在 本 节 中 ,我 们 主要 研究 两 种 类 型 的 空间 操 
作 : 爆炸 图 和 空间 扭曲 。 


7.5.1 爆炸 图 


作为 一 种 呈现 对 象 组 件 的 技术 ， 爆 炸 图 最 先 起 源 于 手绘 插图 技术 。 爆 炸 图 的 核心 思想 是 
通过 整理 复杂 对 象 的 部 件 使 得 可 以 通过 想象 重新 组 合 对 象 。 从 而 ， 可 以 用 来 显示 视觉 信息 的 
屏幕 空间 的 作用 就 被 最 大 化 ， 同 时 还 可 以 很 好 地 支持 物体 空间 结构 的 感知 ， 找 到 一 个 各 部 件 
密切 相关 的 爆炸 部 件 的 合理 布局 ， 对 于 生成 成 功 的 爆炸 图 十 分 重要 。 

在 增强 现实 中 使 用 爆炸 图 作为 可 视 化 技术 时 ， 找 到 爆炸 部 分 的 合理 布局 并 不 是 面临 的 唯 
一 挑战 : 增强 现实 也 需要 重新 布置 真实 场景 的 部 件 。 为 了 达到 这 个 目标 ,视觉 信息 必须 从 初 
始 位 置 转移 到 目标 位 置 ( 见 图 7.16 )。 在 可 视 化 信息 转移 之 后 ， 其 所 在 的 原始 位 置 必须 被 新 
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图 像 填充 。 最 后 ， 必 须 解 决 虚拟 和 真实 之 间 的 正确 遮挡 。 

可 以 使 用 视频 纹理 幻影 来 实现 真实 世界 部 件 的 放置 [Kalkofen et al. 2009] [Tatzgern et al. 
2010]。 这 是 一 个 真实 世界 中 对 象 的 虚拟 表示 ， 将 其 纹理 映射 到 直播 视频 图 像 中 。 从 对 应 当 
前 摄像 机 图 像 的 视点 对 于 每 一 个 视频 纹理 幻影 表面 点 计算 映射 纹理 坐标 ， 即 每 个 顶点 的 幻影 
被 转换 到 转移 之 前 被 占用 的 位 置 。 

在 一 个 顶点 着 色 硕 中 ， 可 以 很 容易 完成 这 种 计算 并 在 幻影 对 象 被 转移 到 新 位 置 之 后 应 用 
到 其 几何 形状 。 视 频 纹理 幻影 使 用 纹理 映射 进行 演 染 ,但 是 没有 任何 阴影 ， 因 为 我 们 可 以 假 
设 在 真实 对 象 的 视频 纹理 中 已 经 包含 了 照明 效果 ， 而 且 只 需要 单一 步骤 的 泻 染 。 因 此 ， 视 频 
纹理 约 影 的 泻 染 计算 量 很 小 。 此 外 ， 这 种 技术 处 理 零 位 移 的 效果 和 使 用 传统 幻影 泻 染 方法 时 
相同 。 这 种 属性 可 以 使 其 从 未 经 调整 的 真实 对 象 开始 直接 生成 动态 爆炸 图 。 





图 7.16 a) 使 用 基础 阴影 演 染 爆炸 约 影 。b) 使 用 视频 纹理 双重 幻影 泻 染 ， 可 视 像素 爆 
炸 并 显示 黑色 的 背景 像素 (由 Markus Tatzgern 和 Denis Kalkofen 提供 ， 见 彩 插 ) 


视频 纹理 幻影 可 以 让 我 们 在 屏幕 上 移动 真实 场景 部 件 到 新 位 置 并 在 原 有 位 置 显示 被 隐藏 
的 物体 。 然 而 ， 被 显示 的 区 域 通常 不 会 完全 被 虚拟 物体 占用 。 没 有 被 虚拟 对 象 占据 的 像素 不 
应 该 显示 原始 视频 图 像 ， 而 是 应 该 显示 背景 颜色 。 为 此 ， 需 要 执行 第 二 步 泻 染 ， 利 用 背景 颜 
色 从 未 被 覆盖 区 域 初始 化 未 被 宪 盖 像素 。 这 种 双重 幻影 泻 染 算法 的 步骤 如 下 : 

1 ) RENER HER To 

2) te te Abs Tio 

3 ) 演 染 视频 纹理 (移动 的 ) 幻影 到 TT。 

4) 泻 染 虚拟 对 象 到 To 

5) 切换 到 泻 染 目标 To 

6) 使 用 当前 视频 图 像 填 充 T,。 

7 ) 使 用 背景 颜色 在 初始 位 置 泻 染 幻 影 。 

8) 将 T BIN T, 顶部 。 

如 果 在 屏幕 空间 有 多 个 幻影 覆盖 ， 双 重 幻影 泻 染 可 能 不 会 生成 正确 的 结果 ， 如 图 7.12a 所 
示 。 在 这 个 例子 中 ， 一 个 未 经 移动 幻影 的 视频 信息 被 传递 到 另 一 个 移动 的 幻影 ， 所 以 在 同一 
帧 中 出 现 两 次 。 为 了 抑制 这 种 伪 影 ， 需 要 只 从 原始 视频 帧 中 复制 可 见 像素 。 这 可 以 通过 首先 
泻 染 幻影 到 id 缓冲 区 来 实现 。 对 视频 泻 染 幻影 的 每 个 片段 ， 在 从 视频 帧 癌 新 位 置 写 人 信息 之 
前 ， 修 正 算法 首先 决定 对 应 原始 位 置 的 相关 片段 是 否 可 见 。 如 果 在 原始 位 置 片 段 是 不 可 见 的 ， 
则 需 使 用 蔡 代 色彩 、 合 成 阴影 或 修复 〈 见 图 7.17 )。 这 个 算法 被 称 作 同步 双重 幻影 泻 染 : 


1 ) 切换 至 演 染 目标 T (id ZMK). 

2) 清空 演 染 目标 T,。 

3) 演 染 所 有 幻影 到 TT,。 

4) 切换 至 演 染 目标 T,。 

5 ) 使 用 当前 视频 图 像 填 充 T,。 

6) ÆT, 中 使 用 背景 颜色 填充 与 被 移动 幻影 对 应 的 像素 。 

7) 演 染 视频 纹理 (移动 的 ) 幻影 到 T,， 依 徘 T 控制 视频 图 像 的 使 用 。 
8 ) 演 染 虚拟 物体 到 T, 


= .— 者 





a) b) 
图 7.17 a) 错误 的 纹理 爆炸 幻影 。b) 同步 双重 幻影 演 染 可 以 识别 不 能 被 视频 纹理 的 
像 系 并 对 这 些 像 素 使 用 不 同类 型 的 演 染 风格 (由 Markus Tatzgern 和 Denis 
Kalkofen 提供 ， 见 彩 插 ) 


7.5.2 空间 扭曲 

有 时 需要 显示 锌 隐藏 的 信息 ， 但 是 没有 可 用 的 空间 ， 此 时 不 能 使 用 爆炸 图 。 然 而 ， 一 个 
视频 纹理 幻影 可 以 按 比 例 缩小 以 达到 占用 较 小 空间 的 目的 ， 从 而 可 以 有 足够 的 空间 来 显示 隐 
藏 对 象 。 这 种 想法 被 应 用 于 Sandor 等 人 [2010a] 提出 的 熔 解 可 视 化 技术 。 在 他 们 的 案例 中 ， 
将 室外 环境 中 谈 挡 的 建筑 在 懂 直 方向 按 比 例 缩小 来 显示 隐藏 物体 ， 这 种 缩放 给 人 的 感觉 就 好 
像 这 些 建 筑 被 “ 熔 解 ”一 样 。Sandor 等 人 指出 该 技术 在 多 层 遮 挡 时 效果 特别 显著 ， 因 为 它 避 
fa TIER X 射线 可 视 化 的 杂乱 干扰 。 

增强 现实 可 视 化 技术 中 的 可 变 透 视 视 角 [Veas et al. 2012b] 被 开发 用 来 将 不 同 视角 的 视 
图 整合 成 为 一 幅 单一 图 像 。 它 组 合 了 两 台 虚 拟 摄像 机 ， 即 主 摄像 机 (mc) 和 次 摄像 机 (sc, 
也 称 作 远 摄 像 机 )。 这 种 方法 采用 了 用 于 骨骼 动画 的 壹 皮 算 法 ， 如 图 7.18 所 示 。 它 使 用 一 个 
具有 如 下 参数 的 双 骨 单 关 节 : d 表示 到 旋转 轴 的 距离 〈( 主 摄像 机 到 关节 的 距离 )，a 表示 旋转 
HE, op 表示 效果 区 域 (旋转 会 被 插值 ) 。 

在 虚拟 场景 中 ,根据 从 主 摄像 机 到 旋转 轴 的 距离 对 所 有 顶点 进行 加 权 。 顶 点 插值 的 权 定 
义 了 它们 是 落 在 主 摄像 机 的 视图 中 、 次 相机 的 视图 中 ， 还 是 在 过 渡 区 域 中 。 为 了 进一步 扩 
大 概述 ， 次 摄像 机 被 放置 在 距离 增强 现实 视点 较 远 的 位 置 ， 使 其 能 够 从 数据 中 捕捉 更 多 的 信 
思 ， 同 时 正确 注册 真实 世界 上 下 文 的 视频 。 
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图 7.18 a) 可 变 透 视 视 图 集成 了 在 一 幅 图 像 中 前 景 和 远方 场景 的 虚拟 自 顶 癌 下 视图 的 第 
一 人 称 视 点 ， 由 Eduardo Veas 提供 。b) 通过 在 场景 几何 的 倾斜 部 分 应 用 骨骼 
动画 原理 获取 可 变 透 视 视图 


7.6 信息 过 滤 


增强 现实 中 过 多 信息 的 显示 会 导致 杂乱 显示 问题 ， 从 而 阻碍 而 不 是 帮助 用 户 对 环境 的 理 
解 。 则 在 减少 增强 现实 信息 数量 使 其 控制 在 一 个 合理 范围 内 的 技术 通常 被 称 作 信息 过 滤 。 信 
息 过 滤 可 以 通过 以 下 两 种 策略 实现 : 基于 用 户 或 应 用 对 信息 重要 程度 的 知识 进行 过 滤 (基于 
知识 的 过 滤 )， 或 是 基于 屏幕 空间 和 物体 空间 的 空间 认 知 。 本 节 研 究 这 两 种 信息 过 滤 机 制 并 
给 出 其 应 用 示例 。 


7.6.1 基于 知识 的 过 滤 


Feiner 等 人 [1993] 提出 了 用 于 增强 现实 的 基于 知识 过 滤 的 方法 。KARMA (基于 知识 的 
增强 现实 维修 辅助 ) 根据 一 系列 由 基于 意图 的 说 明生 成 器 生成 的 交流 性 目标 来 自动 创建 适用 
于 增强 现实 的 技术 说 明 。 该 生成 器 使 用 基于 规则 的 方法 来 合成 说 明 。 在 内 部 ， 它 试图 满足 区 
流 性 目标 (例如 展示 一 个 特殊 对 象 ) 和 当前 真实 世界 情况 《例如 在 用 户 当 前 视角 哪些 对 象 是 
可 视 的 ) 的 一 系列 约束 -KARMA 以 规则 的 形式 呈现 知识 ， 这 种 规则 指出 了 什么 样 的 说 明 (或 
说 明 风 格 ) 可 以 满足 特定 的 约束 。 因 此 合成 一 个 特定 说 明成 为 了 一 个 从 可 用 集中 搜索 和 回 渊 
到 规则 正确 应 用 的 过 程 。 

HÆ KARMA 说 明 引 擎 最 初 的 目的 是 为 虚拟 现实 提供 说 明 ， 但 通过 菏 种 系统 无 法 改变 
的 约束 ， 可 以 将 其 扩展 到 增强 现实 领域 ， 例 如 物理 对 象 的 位 置 。 图 1.4 展示 了 一 个 通过 光学 
透视 式 头盔 对 激光 打印 机 丢 加 维护 指示 的 例子 。 


7.6.2 空间 过 滤 


空间 过 滤 使 用 几何 或 地 理 信息 来 减少 信息 的 数量 ， 这 些 信息 都 是 直接 来 目 增 强 现实 场景 
表示 。 一 个 简单 的 例子 是 标记 算法 ( 见 7.3 市 )， 按照 与 观察 者 距离 增加 的 顺序 标注 对 象 ， 直 
到 占据 了 所 有 屏幕 上 的 可 用 空间 。 

通常 ， 空 间 过 滤 会 结合 一 定 程度 的 交互 控制 。 一 个 经 典 的 例子 就 是 魔 镜 技术 。 魔 镜 是 二 
维 或 三 维 环境 中 被 演 染 成 与 周围 环境 不 同 风 格 的 区 域 ， 最 初 由 Bier 等 人 [1993] 作为 一 种 二 维 
用 户 交互 界面 提出 。 魔 镜 的 典型 应 用 包括 增强 感 兴趣 的 数据 、 显 示 隐 藏 信息 以 及 抑制 干扰 信息 。 
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在 三 维 环 境 中 ， 魔 镜 可 以 被 定义 为 一 个 在 屏幕 空间 或 物体 空间 的 区 域 [Viega et al. 
1996]。 在 屏幕 空间 的 魔 镜 称 为 平面 魔 镜 ， 对 每 一 个 其 投影 落 入 麻 镜 覆盖 区 域 的 对 象 都 有 影 
响 。 在 物体 空间 的 麻 镜 称 为 体 魔 镜 ， 魔 镜 和 覆盖 区 域内 的 每 个 物体 都 会 受到 影响 。 这 两 种 类 型 
的 魔 镜 都 可 以 用 来 在 增强 现实 中 限制 某 种 类 型 的 感 兴趣 区 域 的 增强 或 注释 。 

例如 ，Looser 等 人 [2007] 讨论 了 一 种 用 于 放大 物体 、 选 择 物体 以 及 发 现 隐藏 信息 的 手 
持 式 魔 镜 。 在 他 们 的 方法 中 ,佩戴 头盔 的 用 户 手持 跟 踊 棒 。 跟 踪 棒 的 端点 连接 到 魔 镜 ， 从 而 
可 以 很 容易 地 被 放置 在 环境 中 。 

Bane 和 Höllerer [2004] 展示 了 男 一 种 类 型 的 空间 过 滤 一 一 X 射线 通道 ( 见 图 7.19 )。 通 道 在 
屏幕 空间 定义 一 个 有 界 区 域 ， 从 用 户 的 位 置 向 视线 方向 扩展 通道 。 它 本 质 上 是 一 种 特殊 的 魔 镜 ， 
适用 于 在 一 定 距 离 内 显示 隐藏 结构 。 这 种 可 视 化 类 似 于 通过 通道 问 下 看 场景 的 内 部 。 在 通道 内 
部 ， 靠 近 观 察 者 的 区 域 是 空 的 ， 而 中 间 区 域 显 示 对 象 的 框架 来 提供 上 下 文 信 息 。 最 后 ， 在 感 兴 
趣 的 远 端 区 域 泻 染 虚拟 对 象 ， 通 过 显示 均匀 着 色 的 背景 来 保证 足够 的 对 比 度 。 深 度 感知 通过 远 
景 透 视线 索 的 “轨道 ”以 及 到 隐藏 对 象 的 距离 数据 给 出 。 用 户 可 以 选择 语义 对 象 ， 例 如 内 部 房 
间 的 整体 ， 而 不 是 随意 描述 的 切片 几何 ， 这 样 可 以 显著 提高 对 隐藏 信息 的 理解 。 


ae Y 
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出 隐藏 几何 的 距离 线索 


图 7.19 X 射线 通道 可 以 使 用 户 看 到 建筑 的 内 部 并 给 





Mendez 等 人 [2006] 描述 了 增强 现实 中 上 下 文 驱动 的 可 视 化 魔 镜 的 使 用 ( 见 图 7.20). 
他 们 讨论 的 多 步 泻 染 技术 可 以 泻 染 任意 凸透镜 。 上 此外， 这些 透镜 可 以 根据 物体 的 属性 被 动态 
地 赋予 特效 〈( 例 如， 幻影 效果 )。 这 些 属性 作为 场景 物体 的 附加 信息 被 应 用 提供 。 该 方法 非 
第 容易 结合 某 些 类 型 的 麻 锐 效果 和 应 用 选择 效果 。 例 如 ， 生 成 删除 场景 中 一 些 不 重要 的 物体 
的 效果 ， 同 时 重要 的 遮挡 物体 通过 透明 效果 进行 泻 染 。 


图 7.20 ” 麻 镜 展示 了 肝脏 模型 中 的 血管 ， 由 Erick Mendez 和 Denis Kalkofen 提供 
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7.6.3 ”基于 知识 的 过 滤 与 空间 过 滤 的 结合 

Julier 等 人 [2002] 提出 的 焦点 坚 染 技术 绪 合 了 基于 知识 的 过 滤 和 空间 过 滤 。 这 些 研 究 
人 员 认 为 场景 中 为 特殊 物体 提供 的 信息 细节 应 该 考虑 用 户 当 前 任务 的 重要 性 和 与 用 户 的 距 
离 。 对 于 一 个 对 象 来 说 ， 不 重要 或 距离 太 远 的 注释 应 该 被 隐 去 。 为 了 计算 这 种 组 合 方法 , 使 
用 当前 用 户 的 位 置 和 任务 来 确定 一 个 焦点 区 域 ， 利 用 每 个 对 象 的 属性 定义 一 个 学 当 区域。 对 
象 注 释 的 显示 程度 取决 于 焦点 和 晤 染 区 域 的 交叉 部 分 。 与 特定 任务 相关 的 属性 会 影响 焦点 区 
域 和 学 染 区 域 的 范围 ， 从 而 导致 与 用 户 高 度 相 关 物 体 的 尝 染 区 域 增 大 。Julier 等 在 城市 战争 
场景 中 描述 了 他 们 技术 的 应 用 ( 见 图 7.21 ) 





a) b) 


图 7.21 a) 未 过 滤 的 信息 又 加 会 对 显示 造成 杂乱 干扰 。b) 通过 使 用 焦点 - 尝 染 过 滤 ， 
和 登 加 只 限定 用 于 具有 高 相关 性 的 区 域 ， 在 这 里 指 的 是 建筑 的 轮廓 和 内 部 (图片 
由 Simon Julier 提供 ) 


任何 形式 的 过 滤 (包括 焦点 - 尝 染 方法 ) 都 会 导致 潜在 相关 信息 的 抑制 。 理 想 情况 下 ， 
不 相关 的 信息 应 该 被 改写 而 不 是 被 抑制 。 为 了 达到 这 个 目的 ，Tatzgern 等 人 [2016] 提出 通 
过 聚 类 汇集 相关 数据 点 而 不 是 使 用 过 滤 需 移 除 数据 。 与 过 滤 相 比 ， 聚 类 的 优势 是 可 以 保留 
完整 的 信息 空间 。 一 些 商 用 增强 现实 浏览 器 使 用 聚 类 来 控制 条 乱 干 扰 ， 尽 管 这 样 并 不 一 十 
会 产生 一 个 更 好 的 效果 ， ML EAT Asa 于 大 数据 集 。 然 而 ，Tatzgern 提出 了 通过 递归 至 
ERIR- 信息 分 层 。 这 种 方法 在 概念 上 类 似 于 语义 的 细节 层次 。 聚 类 结合 了 用 户 控 制 
的 空间 属性 (例如 距离 ) 和 非 空 间 属 性 (例如 语义 标签 )。 这 些 属性 的 加 权 和 提供 了 数据 与 
用 户 关 联 的 等 级 。 

为 了 避 狗 视觉 杂乱 ， 显 示 算 法 更 为 详细 地 展示 了 和 用 户 相 关 的 数据 ， 同 时 调整 可 用 于 屏 
幕 空间 显示 的 信息 量 。 这 是 通过 求解 增 大 优化 问题 来 实现 的 ， 决 定 了 层次 绪 构 中 用 于 显示 
的 节点 。 用 户 可 以 互动 地 调整 优先 级 来 最 终 找 到 相关 数据 ， 并 根据 需要 显示 所 有 的 细节 信息 
( 见 图 7.22 ) 
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图 7.22 图标 表示 在 图 书馆 中 选择 的 图 书 的 位 置 。a) 同时 显示 所 有 匹配 当前 检索 书籍 
产生 杂乱 干扰 。b) 通过 聚 类 的 方法 只 显示 某 一 种 类 图 书 ， 视 觉 上 更 易于 理解 ， 
用 户 可 以 点 击 聚 类 进一步 展开 (由 Markus Tatzgern 和 Denis Kalkofen 提供 ) 


7.7 as 


可 视 化 决定 了 信息 的 显示 形式 。 因 为 用 户 已 经 从 真实 场景 中 接收 了 所 有 信息 ， 在 增强 现 
实 中 ， 这 主要 意味 着 确定 哪些 增加 的 信息 应 该 被 显示 。 人 情境 可 视 化 是 信息 与 真实 场景 紧密 关 
联 的 增强 现实 可 视 化 的 一 个 原则 。 注 释 和 标签 技术 对 于 这 种 可 视 化 技术 非常 重要 ， 可 以 避免 
难 读 的 布局 和 杂乱 的 显示 。 男 一 种 用 于 增强 现实 的 重要 可 视 化 技术 是 XX 射 线 可 视 化 ， 可 以 
用 来 显示 隐藏 信息 或 其 他 不 可 感知 的 结构 ， 例 如 ， 爆 炸 图 和 约 影 的 使 用 。 最 后 ， 魔 镜 等 信息 
过 滤 技 术 可 以 用 来 将 正确 数量 的 与 任务 相关 的 信息 传递 给 用 户 。 
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在 理解 了 计算 机 视觉 技术 对 增强 现实 输入 影响 很 大 ， 计算机 图 形 学 技术 对 增强 现实 输出 
起 到 决定 性 作用 之 后 ,我 们 将 研究 重点 转移 到 连接 输入 和 输出 的 人 机 交互 上 。 我 们 从 设计 师 
而 不 是 工程 师 的 视角 对 输入 和 输出 模 态 重新 审视 ,然后 将 讨论 可 触摸 用 户 界面 和 与 增强 现实 
密切 相关 的 其 他 用 户 界面 ， 包 括 书 写 、 触 觉 和 代理 界面 。 

本 草 之 后 的 几 草 将 基于 本 草 的 基本 观点 进行 特定 主题 的 深入 探讨 ， 其 中 第 9 章 将 讨论 建 
模 和 注释 ， 第 10 章 探索 开发 ， 第 11 章 检视 导航 ， 第 12 章 聚 焦 在 协作 上 ， 


8.1 输出 模 态 


增强 现实 交互 的 效果 只 能 通过 由 此 产生 的 增强 看 到 ， 因 此 增强 信息 的 放置 至 关 重要 。 正 
如 我 们 在 第 2 章 中 提 到 的 ,增强 现实 提供 了 多 种 为 用 户 呈 现 增强 信息 的 方式 ， 随 交互 模式 的 
改变 而 有 所 不 同 。 接 下 来 我 们 将 开始 讨论 增强 信息 放置 的 位 置 。 


8.1.1 增强 放置 


作为 注册 目标 的 实物 为 增强 信息 提供 了 参考 坐标 系 ( 见 图 8.1 )。 为 了 便于 用 户 直观 理解 
这 个 参考 坐标 系 ， 增 强 信息 通常 放置 在 实物 上 或 接近 实物 的 地 方 。 当 然 我 们 可 以 将 增强 信息 
放 在 目 由 空间 的 任何 地 点 ， 但 是 在 多 数 情况 下 ， 实 物 支 撑 的 虚拟 物体 更 容易 被 用 户 理解 。 





图 8.1 增强 信息 可 以 被 放置 在 相对 于 用 户头 部 和 身体 的 某 个 位 置 ， 或 相对 于 环境 的 某 个 位 置 


最 简单 的 场景 是 放置 在 桌面 等 水 平 表面 上 上。 水平 表面 可 以 通过 二 维 平面 内 容 进 行 增强 ， 
也 可 用 作 虚 拟 三 维 物体 的 支撑 表面 。 类 似 地 ， 也 可 以 将 虚拟 物体 放置 在 垂直 平面 上 来 模拟 悬 
挂 在 墙壁 上 的 画像 或 墙 挂 式 物体 。 

如 果真 实 环 境 中 所 有 物体 的 详细 几何 模型 都 是 已 知 的 ， 可 以 将 虚拟 物体 放置 在 环境 表面 
的 任何 地 方 。 通 过 与 仿真 物理 行为 相 结 合 ， 可 以 让 虚拟 迷你 汽车 在 房间 中 竞 速 [Wilson et al. 
2012] 以 及 将 家 具 饰 物 转 化 为 迷你 高 尔 夫 中 的 障碍 物 [Jones et al. 2010]。 用 户 周边 环境 的 所 
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有 表面 都 是 可 以 被 增强 的 ， 就 如 同 交 互 式 戏 剧 体验 那样 [Jones et al. 2014]. 

移动 物体 在 被 增强 之 前 必须 被 跟踪 或 者 重建 ， 这 一 步骤 通常 是 必要 的 先决 条 件 ， 其 原因 
在 于 移动 物体 会 带 来 动态 的 体验 。 除 此 之 外 ， 用 户 可 以 通过 操控 真实 物体 来 控制 应 用 行为 ， 
这 一 概念 被 称 作 可 触摸 用 户 界面 [Ishii and UIImer 1997]。 直 接 对 可 触摸 物体 的 增强 会 产生 可 
触摸 增强 现实 [Kato and Billinghurst 1999]， 这 将 在 本 章 后 面 的 部 分 进行 详细 讨论 。 

人 类 的 身体 是 进行 增强 的 一 个 重要 对 象 。 当 作为 增强 参考 对 象 的 身体 部 分 在 移动 时 ， 增 
强 信 息 也 随 之 移动 ， 从 而 保持 与 身体 位 姿 的 一 致 。 尽 管 从 概念 上 理解 ， 对 人 体 进 行 增 强 与 
对 没有 生命 特征 的 物体 (例如 虚拟 姓名 标签 ) 进行 增强 是 相似 的 ， 但 是 对 人 体 目 身 进行 增强 
在 以 下 几 个 方面 是 相当 有 吸引 力 的 。 第 一 ， 人 体 上 自身 是 随时 可 以 获取 的 。 第 二 ， 基 于 身体 
部 位 可 以 避免 对 用 户 的 测量 。 第 三 ， 人 类 对 目 身 具有 充分 的 了 解 并 可 以 准确 地 控制 日 己 的 身 
体 一 一 这 是 一 个 称 为 本 体感 受 的 现象 ， 即 对 肢体 间 相 对 位 置 的 感知 [Mine et al. 1997]。 通 过 
ETE [al AY ATA KR] ASE RT sh, HA AEA. OK, RPA E. 

以 头 作 为 参考 的 显示 总 是 在 用 户 的 视野 当中 保持 静止 ， 这 对 于 放置 状态 信息 等 持续 可 见 
的 增强 信息 非常 方便 。 然 而 ， 用 户 无 法 观察 到 目 己 的 头 部 并 且 无 法 感知 真实 和 虚拟 物体 之 间 
的 注册 关系 。 因 此 ， 尽 管 这 种 显示 类 型 被 广泛 使 用 ,但 第 第 不 能 视 为 “真正 ”的 增强 现实 。 

以 躯干 作为 参考 的 显示 和 采用 将 虚拟 对 象 直接 显示 到 躯干 上 的 方式 ， 例 如 采用 虚拟 工具 市 
的 形式 。 另 一 种 方案 是 将 身体 形状 扩展 到 空间 ， 例 如 采用 供应 商 托 盘 的 形式 。 后 者 与 以 头 作 
为 参考 的 显示 器 有 一 些 相似 之 处 ， 因 为 它们 似乎 都 缺少 作为 参考 的 真实 对 象 。 当 用 户 相 对 于 
驱 干 移动 头 部 将 视野 调整 到 虚拟 显示 带 时 ， 这 一 差异 将 变 得 明显 。 

以 手 作 为 参考 的 显示 将 信息 放置 于 用 户 的 手掌 当中 ， 就 像 手 中 持 有 真实 物体 那样 。 虚 拟 
物体 可 以 灵活 移动 并 通过 用 户 的 男 外 一 只 手 进 行 操 控 。 以 手 禹 作为 参考 的 显示 具有 相似 的 特 
性 ， 但 并 不 目 然 。 当 用 手 操 控 真 实物 体 时 ， 这 种 显示 模式 非常 具有 吸引 力 , 但 是 在 虚实 物体 
之 间 进 行 快速 切换 时 ， 需 要 保证 增强 仍 在 用 户 的 视野 中 。 

人 体 的 其 他 部 位 也 可 以 用 作 参 考 ,， 但 是 人 因 工 效 因素 导致 将 它们 用 作 自 身 增强 缺乏 吸引 
力 。 除 此 之 外 ， 将 增强 信息 直接 放 在 特定 身体 区 域 对 于 医疗 和 健康 应 用 程序 十 分 有 用 。 其 至 
可 以 实现 全 和 喘 增强 ， 这 对 于 舞蹈 和 体育 指导 来 说 是 一 个 具有 吸引 力 的 解决 方案 ( 见 图 8.2). 





图 8.2 骨 镶 跟 足 提供 了 人 全身 输入 ， 用 户 身 体 的 运动 被 转化 为 运动 箭头 (由 Denis 
Kalkofen 提供 ) 


8.1.2 灵巧 显示 


在 讨论 增强 信息 放置 时 ， 我们 假设 具有 在 任何 位 置 显示 增强 的 技术 能 力 。 实 际 上 ， 增强 
现实 体验 设计 师 必须 考虑 环境 中 的 哪 一 部 分 可 以 被 给 定 的 显示 覆盖 。 移 动 显 示 器 可 以 由 用 户 
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携带 或 穿戴 ， 提 供 了 最 大 的 灵活 性 。 通 过 广角 投影 机 或 覆盖 每 个 感 兴趣 表面 的 投影 机 阵列 ， 
可 以 构建 具有 宽 覆 兹 范围 的 固定 显示 盘 。 

静态 投影 机 阵列 具有 任意 数量 的 用 户 可 以 直接 无 阻碍 地 观察 增强 信息 的 优点 。 此 外 这 样 
的 阵列 还 可 以 被 扩展 成 投影 机 一 摄像 机 系统 UWA 8.3 )， 该 系统 使 用 的 摄像 机 和 投影 机 的 视 
场 角 是 重合 的 。 投 影 机 - 摄像 机 系统 结合 了 上 百 万 数量 级 像素 的 密集 输入 和 密集 和 输出。 摄像 机 
可 以 解析 投影 机 投射 结构 光 所 照明 的 场景 ， 或 是 与 深度 传 感 硕 相 结合 。 在 这 两 种 情况 下 ， 目 
适应 投影 系统 能 够 对 用 户 的 移动 和 环境 的 改变 做 出 反应 。 但 是 ， 投 影 增强 受 物 理 表面 的 限制 
并 且 无 法 生成 多 个 用 户 的 个 性 化 体验 。 同 时 投影 还 需要 对 环境 进行 改造 ， 并 且 在 户外 日 光 条 
件 下 工作 效果 较 差 。 





图 8.3 投影 机 -摄像 机 系统 由 小 型 投影 机 (中间 ) 和 一 组 立体 摄像 机 (左边 和 右边 ) 组 
成 (由 Christian Reinbacher 提供 ) 


与 投影 机 相 比 ， 头 戴 式 和 手持 式 等 移动 显示 器 更 加 经 济 且 具备 可 以 提供 给 多 个 用 户 个 性 
化 体验 的 优点 。 透 视 式 头 戴 显示 需 通 常 仅 为 用 户 提供 环境 的 单一 (增强 ) 视角 LE 8.4a)， 
而 手持 式 显示 器 提供 了 环境 的 增强 备份 OLA 8.4b)。 这 种 模式 有 优点 也 有 不 足 。 手 持 式 显 
示 器 的 携带 对 于 用 户 来 说 是 个 障碍 ， 同 时 由 于 显示 器 尺寸 的 限制 ， 只 能 覆盖 用 户 视野 中 很 小 
的 一 部 分 区 域 。 用 户 必 须 在 真实 世界 和 虚拟 图 像 之 间 分 配 注意 力 。 手 持 式 设备 可 以 提供 额外 
的 输入 通道 ， 从 而 在 一 定 程度 上 弥补 了 其 不 足 。 用 户 可 以 单 手 独立 于 视线 方向 对 显示 器 进行 
移动 并 用 另 一 只 手 通过 设备 触摸 屏 进 行 操作 。 这 些 输 入 能 力 部 分 地 补偿 了 在 其 他 活动 中 用 户 
双手 使 用 不 便 的 状况 。 

第 三 种 显示 模式 通过 灵巧 投影 机 构建 ， 结 合 了 上 述 两 种 显示 模式 ， 其 投影 图 像 的 位 置 可 
以 随 着 时 间 改 变 。 例 如 ， 可 摆动 的 投影 仪 被 放置 在 马达 驱动 的 转动 平台 上 ， 从 而 可 以 将 投影 
图 像 投 射 到 安装 点 可 见 视野 环境 中 的 所 有 平面 上 。 只 要 感 兴趣 对 象 移动 或 者 改变 不 是 特别 迄 
速 ， 可 转动 的 投影 仪 都 可 以 持续 地 对 其 进行 增强 。 微 型 投影 仪 是 手持 式 设 备 ， 可 以 像 手 电 一 
样 使 用 ( 见 图 8.4c)。 安 装 在 肩 部 的 投影 机 解放 了 用 户 的 双手 ， 可 以 对 用 户 面 前 的 对 象 进行 
增强 。 头 戴 式 投影 机 也 可 以 实现 类 似 的 功能 ， 同 时 其 投影 方向 总 是 与 用 户 的 主 视 方 向 一 致 。 
通过 将 这 一 工作 原理 和 环境 中 的 回 射 表面 相 结 合 ， 可 以 获得 高 对 比 度 。 但 不 地 的 是 ， 时 至 今 
日 使 用 电池 供电 的 投影 机 只 能 生成 低 对 比 度 图 像 ， 而 连 线 的 投影 机 显然 无 法 适用 于 严格 的 移 
PERE 
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图 8.4 a) 增强 现实 头 戴 式 显示 ; b) 手持 式 增强 现实 ; c) 投影 式 增强 现实 
8.1.3 BB 


SiG oR SWS AY AREA Wr Ha Fe ES FAP Jal Pa SE AY Ma i A ea. FEA 
用 户 的 输入 被 局 限于 观看 或 将 摄像 机 指 癌 特 定 对 和 象 ， 这 种 交互 方式 称 为 增强 浏览 。 虽然 浏览 
的 交互 很 少 ， 但 却 十 分 有 效 ， 其 原因 在 于 人 允许 用 户 进 行 无 需 过 度 专 注 的 思考 。 很 多 重要 的 增 
II [State et al. 1996b] 、 导 航 [Mulloni 
et al. 2012]、 旅 游 [Feiner et al. 1997] (ULF 8.5) 和 地 下 基础 设施 检查 [Schall et al. 2008]. 
增强 浏览 的 信息 通常 来 目 包含 地 理 配 准 信息 或 人 物 对 象 信息 的 数据 库 。 "世界 之 窗 ”[Feiner 
et al. 1993b] 甚至 已 经 将 传统 的 二 维 桌 面 应 用 程序 作为 增强 信息 显示 在 三 维 环境 中 。 








图 8.5 哥伦比亚 导 览 机 是 第 一 个 增强 现实 浏览 硕 (由 哥伦比亚 大 学 提供 ) 


使 用 头 戴 式 显示 需 进 行 浏览 的 优势 在 于 不 占用 用 户 双 手 的 同时 通过 跟踪 用 户 的 视线 方 回 
自然 地 确定 用 户 的 观察 焦点 。 遗 憾 的 是 ， 简 易 实 现 的 “持续 开启 ”增强 会 受到 杂乱 环境 的 干 
H, 用 户 至 少 需 要 一 个 易 用 的 开启 和 关闭 增强 的 方式 。 
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使 用 手持 显示 上 需 进 行 浏 览 会 导致 使 用 模式 略 有 不 同 : 手持 显示 器 成 为 物理 魔 镜 ， 用 户 可 
音 此 查看 真实 环境 的 更 改 (增强 ) 版 本 ( 见 图 8.6 )。 我 们 可 以 将 魔 镜 解释 为 聚焦 + 上 下 文 显 
示 的 一 个 实例 [Kosara et al. 2003]， 并 排 呈 现 两 组 信息 显示 。 通 过 直接 观看 真实 世界 和 观看 
屏 才 之 间 的 交 蔡 ， 用 户 可 以 选择 是 否 需 要 增强 一 一 这 是 一 个 必须 通过 头 戴 显示 器 来 进行 明确 
控制 的 选择 。 





图 8.6 ” 魔 镜 让 用 户 观 察 到 人 体 的 骨骼 结构 (由 Anton Fuhrmann 提供 ) 


当然 ， 魔 镜 也 可 以 通过 头 戴 显示 咽 来 实现 。 一 个 流行 的 解决 方案 是 通过 物理 前 切 板 或 者 
物理 校 镜 等 被 跟踪 的 被 动 道具 来 代表 魔 镜 。 在 这 种 情况 下 ， 用 户 不 能 在 魔 镜 之 外 看 到 非 增 强 
对 焦 区 域 。 

基于 投影 机 的 增强 现实 也 存在 与 应 用 魔 镜 类 似 的 限制 。 通 过 使 用 手持 式 投 影 机 (一 个 手 
电 )， 用 户 可 以 选择 进行 增强 的 焦点 区 域 ， 但 是 无 法 观察 周边 区 域 的 增强 。 即 使 这 样 ， 通 过 
暂时 移 开 手电 来 显示 未 被 修改 的 真实 世界 ， 要 比 在 头 戴 显 示 器 中 关闭 增强 更 加 直观 。 

魔 镜 焦点 区 域 的 放置 在 概念 上 非常 类 似 于 通过 光线 投射 在 三 维 环境 中 选择 对 象 
[Bowman et al. 2005]。 通 过 头 戴 显 示 右 上 的 注视 方 句 、 手 持 显 示 器 上 的 图 像 中 心 (或 任何 其 
他 点 ) 或 手持 道具 或 手电 简 的 方 回 来 隐 含 地 定义 光线 。 光 线 投射 通常 用 于 选择 沿 光线 方向 遇 
到 的 第 一 个 对 象 。 男 一 个 选项 是 将 这 一 选择 扩展 到 视 锥 体 或 手电 简 锥 体 中 包含 的 所 有 对 象 。 
三 维 选择 和 魔 镜 操作 之 间 的 主要 区 别 在 于 浏览 体验 中 应 用 魔 镜 的 效果 立即 显现 出 来 。 与 之 相 
对 ， 对 象 的 选择 通常 是 调用 命令 (例如 移动 或 删除 对 象 ) 的 准备 步骤 。 然 而 ， 如 果 用 户 配 备 
有 用 于 在 增强 浏览 期 间 选 择 焦点 区 域 特 定 对 象 的 显 式 触发 器 (如 按钮 )， 则 可 以 将 魔 镜 操 作 
和 选择 组 合成 单一 的 交互 。 

有 几 个 案例 在 光线 投射 时 没有 应 用 魔 镜 ， 而 是 直接 使 用 了 其 在 环境 中 的 位 置 。 直 接 在 环 
境 中 通过 手持 设备 进行 交互 的 一 个 实例 是 Henrysson 等 人 [2005] 开发 的 增强 现实 乒乓 球 应 用 
程序 。 在 这 个 应 用 只 有 通过 三 镜 才 可 以 看 见 虚 拟 乒 乓 球 在 空中 运动 ， 同 时 使 用 魔 镜 作 为 球拍 
来 击 打 虚 拟 乒 乓 球 。 

通常 ， 用 户 以 这 种 方式 在 三 维 中 进行 交互 的 能 力 会 受到 手持 设备 小 视野 的 限制 。 然 
而 ， 光 线 投射 的 某 些 变 体 使 用 有 限 长 度 的 光线 进行 选择 ， 与 手持 手杖 指向 类 似 ( 见 图 8.7 )。 
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Leigh 等 人 [2014] 认为 从 操纵 者 到 被 操纵 物体 的 距离 实际 上 是 一 个 连续 量 。 在 一 种 极端 情况 
下 ， 范 围 为 零 ， 即 操纵 者 接触 到 被 操纵 的 物体 ， 从 而 导致 有 形 的 相互 作用 。 在 男 一 种 极端 
情况 下 ， 被 操纵 的 物体 超出 了 操纵 者 的 操纵 范围 ， 必 须 用 魔 镜 或 光线 投射 来 解决 。 作 为 有 形 
魔 镜 的 一 个 实例 ，Leigh 等 通过 检测 屏幕 上 显示 的 小 颜色 块 来 展示 智能 手机 如 何 用 于 在 屏幕 
前 方 几 厘 米 的 距离 进行 交互 。 





a) b) 


图 8.7 a) 触 碰 方式 选择 ; b) 光线 投射 选择 


8.2 输入 模 态 


在 讨论 输出 模 态 时 ， 我 们 提 到 用 户 连续 改变 视点 或 者 增强 的 焦点 区 域 一 一 例如 ， 在 佩戴 
头 戴 式 显示 胡 后 通过 移动 涉 部 来 实现 。 这 种 形式 的 交互 是 大 多 数 增强 现实 体验 不 可 或 缺 的 一 
部 分 。 如 采 我 们 想 超越 增强 浏览 ， 将 用 户 的 角色 设 定 为 被 动 观察 者 ， 我 们 必须 考虑 合适 的 输 
和 人 设备 和 方式 。 增 强 现实 可 以 从 已 经 为 虚拟 现实 和 自然 用 户 界 面 开 发 的 各 种 技术 中 进行 选择 。 
其 中 自然 用 户 界 面 是 超越 经 典 划 面 的 用 户 界面 的 概括 性 术语 ， 特 别 是 包含 了 手势 和 触摸 。 


8.2.1 刚体 的 跟踪 和 操控 


在 第 3 章 中 ， 我们 深入 地 讨论 了 如 何 测量 刚体 的 6 自由 度 位 姿 。 这些 稀 玖 的 跟 踊 方 法 可 
以 提供 高 刷新 率 和 高 精度 ， 但 是 只 针对 较 少 的 点 或 对 象 。 

入 玖 跟 踊 最 重要 的 应 用 场景 是 通过 对 用 户头 部 或 
摄像 机 的 跟 踊 来 控制 视点 。 除 此 之 外 ， 交 互 常常 依赖 
于 跟踪 在 三 维 中 进行 指 回 或 运动 的 手持 设备 。 手 本 身 
同样 可 以 被 使 用 一 一 例如 ， 将 跟 踊 目标 放置 在 手背 上 ， 
两 者 之 间 是 刚性 连接 。 为 了 达到 这 个 目的 ， 姿 态 跟踪 
通常 还 需要 按钮 或 开关 等 传统 控制 设备 的 辅助 ， 例 如 
任天堂 的 Wiimote 是 一 个 手持 式 设备 ， 看 起 来 像 是 一 
个 具有 6 自由 度 跟 中 和 几 个 按钮 的 遥控 器 ( 见 图 8.8 )。 

Pinch 手套 实现 的 功能 与 带 有 电极 的 指 尖 接触 类 
似 ， 因 此 用 户 可 以 通过 将 两 根 手指 捏合 来 触发 操作 。 
例 如 ，Tinmith Hand [Piekarki and Thomas 2002] 使 
用 的 手套 通过 检测 捏合 手势 来 操控 注册 到 头 部 的 菜单 
( 见 图 8.9 )。 每 个 手套 的 拇指 都 设计 了 一 个 用 于 虚拟 对 ”图 8.8 任天堂 Wiimote 是 消费 者 级 别 
象 图 像 平面 操作 的 基准 标记 [Pierce et al. 1997]. 的 视频 游戏 中 的 3D 输入 设备 
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图 8.9 Pinch 手套 检测 用 户 是 否 将 指 尖 捏 合 在 一 起 并 将 手势 解 译 为 选择 指令 


8.2.2 ” 人体 跟踪 


显然 ， 黎 玖 跟 踊 将 交互 限制 为 一 个 或 几 个 离散 点 ， 类 似 于 三 维 版 本 的 鼠标 光标 。 这 种 最 
小 的 输入 能 力 无 法 捕捉 人 类 与 现实 世界 的 丰富 交互 。 因 此 ， 最 近 的 开发 方 回 是 尝试 结合 稠密 
跟踪 方法 ， 这 种 方法 依赖 于 来 自 摄像 机 或 深度 传 感 顺 的 丰富 感官 输入 来 处 理 全 身 运 动 以 及 洲 
在 的 环境 任意 变化 。 

人 体 运 动 捕捉 通常 通过 骨骼 跟踪 来 完成 ， 其 原因 在 于 获取 人 体 骨 骼 中 每 根 骨头 的 位 姿 对 
于 大 多 数 交 互 应 用 已 经 足够 。 考 虑 到 可 能 的 骨骼 配置 极 大 地 受 结构 的 限制 ， 跟 踩 骨骼 要 比 跟 
踪 整 个 人 体形 态 更 加 容易 。 

对 于 某 些 应 用 来 说 ,仅仅 跟 踊 头 、 腹 膊 或 手 等 喘 体 的 相关 部 位 已 经 足够 了 。 由 于 我 们 主 
要 通过 双手 对 环境 进行 操作 ， 因 此 手 部 跟踪 尤为 重要 。 手 部 跟踪 可 视 为 骨骼 跟 踊 的 特例 。 总 
的 来 说 ， 手 和 手指 的 自由 度 超过 20 个， 并且 人 和 手 还 可 以 进行 非常 准确 和 精细 的 操作 。 因 此 
对 整个 手 (LE 8.10 ) 的 可 徘 跟 躁 问 题 受到 了 人 研究 人 员 的 关注 [Oberweger et al. 2015]。 





图 8.10” 手 和 手指 跟踪 (由 Markus Oberweger 提供 ) 


Song 等 人 [2014] 讨论 了 在 手持 式 设 备 前 识别 目 由 手 空中 手势 的 系统 。Song 的 方法 可 用 
于 菜单 栏 的 选择 或 平移 等 交互 中 。 将 这 种 方法 应 用 于 移动 增强 现实 交互 中 的 优点 是 ， 只 有 当 
手 部 进入 移动 设备 的 视野 内 ， 手 抒 才 会 被 识别 ， 从 而 可 以 避免 误 识别 。 
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8.2.3 手势 

身体 和 手 部 跟 蹊 的 一 个 重要 应 用 场景 是 手势 交互 。 早 期 的 研究 关注 于 姿态 ， 即 静态 的 人 
体 或 手 部 的 姿态 ， 例 如 表示 字母 。 这 样 的 姿态 很 少 会 用 于 我 们 的 日 常 目 然 交互 。 如 今 随 痢 计 
算 性 能 的 提高 ， 已 经 可 以 检测 运动 人 体 的 动态 手势 。 动 态 手 势 的 优点 是 可 以 同时 提供 定量 和 
定性 的 输入 。 例 如 用 户 做 出 “框架 ”动作 ( 见 图 8.11 )， 可 以 同时 表达 执行 取景 器 操作 和 通 
过 两 只 手 之 间 的 距离 来 实现 想 要 的 缩放 等 级 。Kolsch 等 人 [2004] 展示 了 通过 可 穿戴 摄像 机 
和 计算 机 视觉 技术 对 手势 进行 跟 踊 识别 的 应 用 实例 。 





图 8.11 采用 两 只 手 的 取景 器 手势 


手势 语言 可 以 表达 丰富 信息 ， 但 是 与 传统 基于 菜单 栏 的 交互 界面 相 比 ， 需 要 更 多 的 学 
J. White 等 人 [2009b] 建议 采用 可 能 手势 的 半 透 明 动 画 让 手势 学 习 变 得 更 加 简单 。 一 般 
来 说 ， 手 势 使 用 不 便 且 难以 记忆 。 除 此 之 外 ,来 自用 户 身 体 的 自 遮 挡 会 影响 可 靠 手 势 识别 
系统 的 应 用 . 

HandyAR[Lee and Höllerer 2007] 是 用 于 增强 现实 手势 交互 语言 的 一 个 案例 ，HandyAR 
跟踪 用户 伸 出 的 手 并 建立 一 个 适合 手掌 的 坐标 系统 OLA 8.12 )。 可 以 将 虚拟 对 象 附加 到 
张 开 的 手 上 以 进行 检查 和 操纵 。 通 过 做 出 握拳 手势 可 以 触发 动作 。 手 部 跟踪 系统 还 允许 将 
张 开 的 手 擎 心 疝 下放 在 表面 上 ， 从 而 提示 系统 使 用 SLAM 方法 获取 手 周 围 的 地 图 [Lee and 
Höllerer 2008]。 在 地 图 初始 化 之 后 ， 可 以 在 手 不 存在 的 情况 下 进行 目 动 跟踪 。 通 过 这 种 方 
式 ， 可 以 将 虚拟 对 和 象 放置 在 环境 中 的 任意 位 置 。 





图 8.12 HandyAR 使 用 手 作为 与 物体 交互 的 坐标 系统 (由 Taehee Lee 提供 ) 
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8.2.4 触 控 


自由 空间 手势 的 精度 经 党 受到 缺乏 物理 支撑 的 干扰 ， 从 而 影响 精细 的 操作 。 鉴于 人 类 
具有 良好 的 触觉 ， 因 此 需要 构建 触 控 界面 ( 即 感应 触 磁 的 表面 )， 同 时 提供 被 动 触觉 反馈 。 
早期 触 控 解 决 方案 只 能 识别 表面 上 的 单个 点 ， 但 如 今 的 表面 交互 受益 于 多 点 触 控 检测 。 小 型 
解 控 表面 使 用 电容 感应 ， 而 较 大 的 显示 带 通 常 使 用 全 内 反射 等 光学 方法 。 

通常 将 触 控 表面 与 显示 恬 相 结合 来 创建 触摸 屏 ， 触 摸 屏 将 输入 和 输出 集成 到 同一 个 自然 
空间 中 。 由 于 屏幕 可 以 显示 注册 到 触摸 手指 上 的 任意 交互 信息 ， 因 此 触摸 屏 几 乎 满足 了 增强 
现实 的 全 部 要 求 ， 除 了 注册 是 二 维 而 非 三 维 的 。 

将 传统 图 形 用 户 界面 与 二 维 手 势 相 结合 的 多 点 触 控 表 面 已 成 为 移动 计算 事实 上 的 接口 标 
准 。 鉴 于 如 今 的 许多 增强 现实 系统 使 用 带 有 触摸 屏 的 手持 电脑 ， 触 控 输 入 成 为 控制 屏幕 体验 
的 自然 选择 : 用 户 双 手 操作 厅 镜 ， 非 主导 手 粗略 地 用 6 目 由 度 移动 魔 镜 并 观察 所 需 的 聚焦 区 
域 ， 主 导 手 操作 触摸 屏 来 提供 相对 于 非 主 寻 手 的 2 Ae. BRAS PAE ARR EE TC 
投射 的 手指 下 方 物 体 的 选择 被 感知 为 “触摸 ”图 像 平 面 中 的 物体 [Pierce et al. 1997]。 此 外 ， 
按钮 之 类 的 传统 控制 可 以 放置 在 屏幕 的 指定 区 域 中 ， 或 者 根据 需要 在 物体 附近 出 现 。 

触摸 屏 的 一 个 众所周知 的 问题 是 “ 胖 手 指 问题 ”: 即 手指 会 遮挡 住 交 互 对 象 及 其 周边 的 
环境 ， 使 得 精确 操作 目标 变 得 困难 。LucidTouch [Wigdor et al. 2007] 通过 在 平板 式 手 持 设备 
的 背面 放置 触摸 屏 殉 服 了 这 个 难题 〈《 见 图 8.13 ) 。 





图 8.13 LucidTouch 使 用 背面 触摸 界面 仿真 了 半 透 明 屏 间 


将 空间 增强 现实 和 触 控 界 面相 结合 的 主流 方式 是 通过 投影 机 - 摄像 机 系统 将 篆 规 非 功能 
性 平面 转化 成 为 虚拟 触摸 屏 [Pinhanez 2001]。 例 如 ， 系 统 将 菜单 栏 投影 到 用 户 张 开 的 手 附 近 
(WRI 8.14 )。 

LightSpace[Wilson and Benko 2010] 通过 多 个 深度 传 感 帮 让 用 户 在 一 个 交互 表面 选择 数 
字 项 ， 并 通过 简单 的 表面 触摸 将 其 放置 到 男 外 一 个 表面 上 。 如 果 观 测 到 交互 表面 上 一 定数 量 
的 深度 样本 ， 则 创建 触 控 事 件 。 系 统 并 不 会 区 分 人 类 用 户 与 其 他 物体 ， 仅 仅 通过 物理 规律 
来 操作 虚拟 物体 。 例 如 ， 用 户 可 以 通过 将 物体 从 果子 边缘 扫 到 张 开 的 手 上 从 果 上 拾取 虚拟 物 
体 。LightSpace 也 可 以 确定 交互 表面 之 间 的 目 由 空间 内 用 户 的 动作 。 

全 身 的 触摸 可 以 通过 压力 传 感 表面 来 感应 。 例 如 GravitySpace [Branzel et al. 2013] 使 用 
事先 布置 好 的 检测 表面 (地板 、 家 具 )， 通 过 检测 重力 的 分 布 和 其 他 的 物理 属性 来 推 新 用 户 
的 身体 姿态 。 通 过 将 信息 投影 显示 在 表面 上 ， 实 现 注 册 后 的 输出 。 

GravitySpace 表明 真实 世界 的 物理 规律 可 用 来 设计 目 然 人 机 交互 界面 。 通 过 这 种 类 型 的 
应 用 ,我 们 对 真实 物体 物理 行为 的 全 部 经 验 都 可 以 用 来 直观 操控 虚拟 物体 。 
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图 8.14 使 用 投影 机 - 摄像 机 系统 将 普通 界面 转化 成 为 触摸 屏 ， 由 Claudio Pinhanea 提 
HE (IBM 版 权 所 有 ，2001 )， 见 彩 插 


8.2.5 THERA 


基于 物理 的 接口 通过 用 于 计算 机 游戏 的 商用 仿真 软件 来 实现 虚拟 对 象 与 丰 实 对 和 象 的 交 
互 。 用 于 仿真 不 需要 非常 精确 ， 因 此 计算 较为 轻 量 。 然 而 ， 与 实现 视觉 一 致 性 类 似 ， 为 了 实 
pa rs ep 
] 影 几何 可 以 被 提前 重建 。Jones 等 人 [2010] FER ASC iLk Al ORF E UT RI EE h 
ro 直 放 置 在 表面 上 ， 同 时 可 以 展现 出 任何 想 要 的 物理 行为 。 人 例如， 用户 可 以 选择 
rel 的 照片 或 者 玩 增强 迷你 高 尔 ar 
如 果 使 用 深度 传感器 在 线 测量 幻影 几何 ， 则 物理 一 致 仿真 也 可 以 处 理 人 类 用 户 等 移动 和 
可 变形 的 对 象 。 为 了 避免 复杂 wind 形 模 型 ， 非 刚性 实体 可 以 通过 刚性 球体 的 集合 等 简单 
的 几何 近似 来 表示 。 在 大 多 数 情 况 下 ， 用 户 将 无 法 注意 到 这 种 近似 。 这 种 交互 设计 已 应 用 于 
Beamatron [Wilson et al. 2012] iy Al PY PRA AY FY LL APE, HoloDesk [Hilliges et al. 2012] 
( 见 图 8.15 ) 和 MirageTable [Benko et al. 2012] 等 果 面 大 小 少 置 的 一 个 房间 大 小 的 布置 
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图 8.15 HoloDesk CZAR fit ms Fh ATR EE (eR A OK BL PA F- ee M 
体 的 物理 交互 
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8.3 ABFA 

增强 现实 和 虚拟 现实 之 间 的 一 个 重要 区 别 是 增强 现实 用 户 可 以 自然 地 与 环境 中 的 物理 
对 象 进行 交互 。 这 种 真实 的 交互 是 直接 和 便捷 的 ， 并且 可 以 很 容易 地 用 于 影响 增强 现实 体 
验 。 因 此 ， 与 虚拟 世界 的 交互 变 得 可 感触 。 有 形 用 户 界面 最 初 由 Fitzmaurice 等 人 [1995] 以 
及 Ishii 和 Ullmer[1997] 作为 一 种 普 适 计算 形式 提出 。 通 过 改造 或 感 测 用 户 周围 的 日 常 物体 可 以 
将 其 转换 成 计算 机 的 输入 或 输出 设备 。 增 强 现 实 将 用 户 周围 的 物理 世界 结合 到 交互 中 ， 因 此 与 
有 形 用 户 界 面 息息相关 。 当 我 们 操纵 被 跟 中 的 增强 物理 对 象 时 所 产生 的 就 是 有 形 增强 现实 。 


8.3.1 ABR 

TER WR in hE a, A a TR it oN a AY AT EA TTI. KE 
面 通常 配备 有 用 于 物体 检测 、 跟 踪 甚 至 重建 的 投影 机 -摄像 机 系统 [Leibe et al. 2000]. RIK 
影 机 - 摄像 机 系统 放置 在 更 子 下 面 可 以 隐藏 该 系统 ， 同 时 避免 了 站 在 投影 机 - 摄像 机 单元 和 
桌面 之 间 的 用 户 引 起 的 遮挡 问题 。 只 要 跟踪 系统 可 用 ， 就 可 以 使 用 大 屏幕 或 头 戴 式 显示 和 需 。 

在 将 有 形 物体 放 在 桌面 上 后 ， 可 以 将 其 留 在 那里 。 通 过 这 一 方式 可 以 建立 输入 ， 同 时 
可 以 解放 用 户 的 双手 。 麻 省 理工 学 院 的 有 形 媒 体 研究 组 开发 了 一 系列 果 面 形式 的 有 形 界 面 。 
metaDESK [Ullmer and Ishii 1997] 展示 了 一 个 其 位 置 、 朝 癌 和 比例 由 两 个 著名 校园 建筑 的 
比例 模型 放置 位 置 决定 的 校园 地 图 。 目 前 广为人知 的 一 个 等 效 方法 是 用 于 多 点 触 控 显示 的 
双 指 手势 。Urp [Underkoffler and Ishii 1999] 是 一 款 建 筑 规划 应 用 程序 ， 人 允许 用 户 放 置 有 形 
物体 作为 建筑 物 的 替身 ， 从 而 可 以 检查 交通 、 阳 光 和 风力 变化 的 影响 Illumination Light 
[Underkoffler and Ishii 1998] fi SPA BOL. RMR NE AI ACS LEB, 
所 有 这 些 场景 都 具有 特定 的 特征 : 它们 仅 在 如 面 的 二 维 空 间 上 运行 。 与 之 相对 ， 有 形 增 强 现 
实 可 以 在 第 三 维 中 扩展 交互 范围 。 


8.3.2 ”通用 有 形 物 体 


早期 有 形 增强 现实 使 用 多 种 正方 形 标志 板 作 为 有 形 物 体 。 标 志 板 被 放置 在 条 面 上 ， 其 配 
置 与 上 一 节 讨 论 的 桌面 上 放置 的 有 形 物 体 相似 ( 见 图 8.16 )。 标 志 板 可 以 被 拿 起 并 具备 6 A 
由 度 跟踪 。 在 只 使 用 单个 摄像 机 时 ， 只 有 视野 范围 内 的 标志 板 才 会 被 跟踪。 茶 些 设计 使 用 市 
有 标志 的 壁 毯 或 者 桌布 作为 全 局 参考 坐标 。 因 为 壁 毯 上 标志 的 位 置 是 已 郑 的， 单个 标志 的 观 
察 可 用 来 决定 全 局 位 姿 。 





图 8.16 标志 物 等 通用 有 形 界 面 可 用 来 共同 操纵 虚拟 物体 (由 Gerhard Reitmayr 和 


Hannes Kaufmann 提供 ) 
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通用 形状 的 正方 形 标 记 上 必须 具有 传递 信息 的 图 案 来 回 用 户 传 达 某 种 含义 。 此 外 ， 

还 必须 具备 适合 直接 操作 的 多 自由 度 。 因 此 ， 这 种 设置 具有 各 种 各 样 的 创造 性 的 用 途 
( 见 图 8.17): 

e 通过 旋转 和 平移 单个 有 形 物体 或 者 修改 其 参数 来 操控 物体 对 象 ， 这 通常 在 水 平面 

上 完成 。 拿 起 有 形 物 体 后 ， 其 距离 水 平面 的 高 度 可 用 作 和 额外 的 参数 [Spindler et al. 


2012]。 
e 通过 摆 放 多 个 标志 板 可 以 表达 关联 物体 之 间 的 相对 空间 位 置 ， 例 如 仪表 盘 上 设备 的 
放置 。 


© 两 个 标志 之 间 的 距离 可 用 来 表示 尺度 值 。 两 个 标志 移动 到 非常 接近 的 位 置 时 ， 可 以 
触发 “关联 ”指令 。 例如,“ 红 色 ” 标 志 被 放置 在 虚拟 物体 附近 时 用 来 将 物体 的 颜色 
变 为 红色 。 

e 快速 地 将 标志 板 从 视野 中 移 开 或 者 用 手 将 其 覆盖 可 以 被 解 译 为 触发 某 一 指令 。 系 统 
也 可 以 保存 上 一 次 已 知 的 位 置 并 将 虚拟 物体 摆 放 在 那里 。 

e 手持 的 标志 可 用 于 表达 手势 输入 。 摇 晃 、 旋 转 、 画 圈 、 倾 斜 或 者 前 推 等 动作 可 以 很 
容易 通过 分 析 运 动 轨迹 并 与 模板 对 照 来 确定 。 例 如 ， 可 以 通过 搜寻 移动 速度 很 快 但 


物体 移动 位 移 很 小 的 动作 来 识别 择 晃 。 
a 





图 8.17 有 形 物 体操 控 及 其 关联 参数 


8.3.3 ”特定 有 形 物 体 

通用 有 形 物体 可 以 支持 创造 性 的 解释 ， 但 是 如 果 有 形 物体 具有 可 以 立即 识别 并 表明 某 种 
用 途 的 有 意义 形状 ， 则 有 形 界面 可 以 具有 额外 的 表达 能 力 。 有 形 物 体 的 形状 可 以 类 似 于 拍子 
或 手电 简 等 工具 ， 或 者 是 平板 电脑 、 书 籍 或 盒子 等 容器 。 
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魔法 书 是 页 面 被 跟踪 的 真实 书籍 (ME 8.18 )。 增 强 内 容 被 注册 在 书页 上 ， 可 以 是 由 计 
算 机 产生 的 平面 内 容 (例如 动画 )， 也 可 以 是 放置 在 书页 上 或 者 从 页 面 上 弹出 的 三 维 物体 对 
象 ， 如 同 打开 儿童 书籍 后 从 书本 中 弹出 的 硬 纸 板 。 






图 8.18 ME BAHAT 


标志 附 在 其 上 的 拍子 为 物体 对 象 操控 提供 了 丰 宇 的 手势 培 言 。VOMAR [Kato et al. 
2001] 使 用 拍子 从 魔法 书 中 拿 取 家 有 具 并 将 其 放 人 玩具 屋 中 ， 之 后 将 其 摆 放 到 用 户 满意 的 位 
Hi. Field 和 Voegti [2002] 讨论 了 针对 化 学 教育 的 应 用 ， 使 用 拍子 进行 三 维 对 象 搭 建 : 用 户 
将 单个 原子 放置 在 空间 中 以 组 成 分 子 ， 通 过 化 学 规律 来 确定 其 合理 的 位 置 

个 人 交互 面板 ( 见 图 8.19 ) 将 触摸 笔 和 平板 电脑 相 结合 [Szalavari and Gervautz 1997]. 
该 解决 方案 通过 类 似 的 方式 实现 了 双手 交互 。 平 板 电脑 为 触摸 笔 提 供 了 移动 参考 坐标 系 ， 可 
以 被 各 种 各 样 的 对 象 增 强 ， 包 括 按钮 和 滑动 条 等 二 维 对 象 以 及 体 数 据 库 等 三 维 对 象 。 





图 8.19 个 人 交互 面板 (由 Zsolt Szalavari 和 Michael Gervautz 提供 ) 


用 于 MagicMeeting 环境 [Regenbrecht et al. 2002] 旋转 碟 ( 见 图 8.20) 允许 多 个 围 坐 在 
蝎子 周围 的 用 户 调整 放置 在 盘子 中 虚拟 物体 的 方 癌 以 便 进 行 设 计 检 查 。 





图 8.20 与 MagicMeeting 旋转 碟 类 似 的 交互 


CoCube [Brown et al. 2003] 从 本 质 上 来 说 只 是 一 个 手持 式 盒子 ( 见 图 8.21 )。 可 以 将 三 
维 虚 拟 物 体 放置 在 盒子 内 部 并 将 盒 壁 泻 染 成 透明 材质 。 文 本 等 二 维 内 容 可 以 被 泻 染 在 盒子 的 
表面 。 通 过 旋转 盒子 可 以 让 文本 跟着 滚动 ， 使 得 盒子 看 起 来 像 是 一 卷 手 稿 。 





图 8.21 CoCube 是 多 用 途 有 形 对 象 ， 既 可 以 显示 其 内 部 的 三 维 对 象 ， 也 可 以 在 其 表面 
显示 文本 等 二 维 信 息 


Looser 等 人 [2007] 设计 的 双手 魔 镜 使 用 两 个 真实 的 手柄 来 代表 校 镜 的 左右 边 绿 。 通 过 
移动 手柄 用 户 可 以 改变 校 镜 表面 的 太 二 和 形状 ， 类 似 于 连接 把 手 的 橡胶 薄片 的 效果 。 


8.3.4 透明 有 形 物 体 


有 了 形 物 体 和 其 下 方 的 表面 稼 稼 构成 焦点 区 域 + 上 下 文 的 关系 ， 这 对 于 界面 设计 十 分 重 
要 。 为 了 充分 利用 这 种 关系 ， 我 们 希望 将 增强 信息 同时 显示 在 有 形 物 体 及 表面 上 。 如 果 我 们 
不 希望 使 用 头 戴 式 和 手持 式 显示 并 希望 用 户 没 有 被 束缚 ， 这 种 增强 可 以 通过 投影 机 来 实现 。 
不 科 的 是 ， 仅 仅 使 用 单 台 投影 机 的 解决 方案 无 法 满足 要 求 。 从 上 方 进行 投影 时 ， 有 形 实 物 会 
对 表面 造成 遮挡 ， 内 置 显 示 需 的 表面 不 能 增强 有 形 对 象 。 

如 果 我 们 只 想 使 用 单一 的 显示 硕 ， 显 示 茧 面 上 的 透明 有 形 对 象 提 供 了 一 个 便利 解决 
这 个 问题 的 方式 : 有 形 物体 下 方 显示 的 增强 信息 锌 用 户 感 知 为 属于 有 形 实物 对 象 。 例 如 ， 
metaDESK [Ullmer and Ishii, 1997] 在 显示 妖 上 放置 透明 魔 镜 来 显示 地 图 的 焦点 区 域 (例如 ， 
放大 )。 

DataTiles [Rekimoto et al. 2001] 在 交互 式 显 示 筑 上 放置 透明 巷 块 。 该 系统 可 以 感知 巷 块 
的 放置 和 接受 触 控 笔 的 输入 。 这 种 结合 方式 将 砖 块 转化 
为 交互 式 装 置 。 每 一 个 砖 块 显示 的 用 户 界 面 元 素 都 可 以 
LAMPS EPR. HIE A eR, ALP ay De Pee 
接应 用 程序 组 件 。CapStones [Chan et al. 2012] 使 用 了 
可 以 被 放置 和 堆 苹 在 一 起 的 类 似 透 明 有 形 物体 。 

Schmalstieg 等 人 [1999] 的 触 控 笔 - 果 面 界面 是 个 
人 交互 面板 的 透明 版 本 。 用 户 在 立体 式 背 面 投影 保 面 上 
方 的 立体 空间 内 工作 ， 配 有 透明 材料 制作 的 平板 电脑 和 ” 1 
触 控 笔 ( 见 图 8.22 )。 从 人 因 工 效 学 角度 来 看 ， 这 种 配 ”图 8.22 通过 使 用 透明 平板 和 触 控 笔 
置 与 画家 工作 室内 配备 的 画 刷 、 调 色 板 和 油画 布 类 似 。 界面 ， 立 体 投 影 可 以 被 转化 
作为 主要 交互 工具 的 触 控 笔 在 昌 面 和 平板 电脑 之 间 来 回 成 为 有 形 三 维 界面 
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84 真实 表面 上 的 虚拟 用 亡 界 面 


将 虚拟 触 控 装 置 放置 在 平板 电脑 或 更 面 等 真实 表面 上 ， 是 为 增强 现实 体验 增加 复杂 接口 
的 便捷 方式 。 和 茧 面 应 用 或 者 移动 用 户 界 面 里 已 有 的 解决 方案 可 以 被 重新 使 用 ， 同 时 大 多 数 用 
户 对 这 些 界 面 的 操作 都 是 熟悉 的 。 

可 以 将 虚拟 用 户 界面 放置 在 通用 有 形 物 体 上 。 在 最 简单 的 实例 中 ， 这 可 能 仅仅 是 平板 电 
脑 [Szalavari and Gervautz 1997] 或 空 日 场 [Newman et al. 2001] 等 平面 。Penlight [Song et al. 
2009] 将 与 上 下 文 相 关 的 虚拟 用 户 界 面 放置 在 用 于 制图 昌 的 触 控 笔 上 。 增 强 的 触 控 笔 可 以 触 
发 虚拟 制图 层 ， 当 触 笔 在 表面 位 置 上 悬 译 时 ， 可 以 用 作 动 态 提示 或 者 测量 工具 。 

Marner 等 人 [2009] 探索 了 虚拟 空中 刷 等 更 多 不 同形 状 有 形 工 具 的 使 用 。 他 们 将 这 种 有 
形 实物 称 作 虚拟 -物理 工具 ， 表 明 其 将 物理 形状 和 虚拟 用 户 寞 面 元 系 结 合 起 来 。 

将 虚拟 用 户 界面 放置 在 真实 表面 上 的 想法 可 用 作 驾 驶 舱 的 界面 设计 和 虚拟 原型 设计 。 用 
户 可 以 通过 放置 通用 有 形 实 物 [Poupyrev et al. 2002] 来 实验 不 同 的 界面 布局 ， 能 够 在 运行 时 
重新 对 接口 功能 进行 编程 设 定 [Rekimoto et al. 2001] [Walsh et al. 2013]。 与 有 形 实物 不 同 ， 
表面 上 的 手势 也 可 用 来 指定 新 的 工具 [Xiao et al. 2013]。 通 过 将 虚拟 用 户 界 面 投影 到 驾驶 舱 
的 实物 模型 上 ， 可 以 研究 探索 虚拟 原型 的 人 因 工 效 属 性 . 

虚拟 用 户 界面 的 体验 可 以 通过 引入 物理 表面 的 被 动 触 觉 来 加 强 。 例 如 ， 通 用 有 形 实 物 对 
象 通过 使 用 滑 轨 的 直线 轨道 或 者 旋转 拨号 盘 的 转盘 等 用 户 界 面部 件 上 的 凸凹 结构 等 特殊 用 途 
的 有 形 实物 得 到 增强 。Henderson 和 Feiner[2010] 提出 是 时 候 通 过 重新 定义 真实 表面 上 的 已 
有 物体 结构 来 放置 工具 。 例 如 ， 两 个 面板 之 间 的 折 痕 可 以 被 解 译 为 滑动 舌 ， 而 螺丝 头 和 把 手 
可 以 被 解 译 为 按钮 对 象 。 在 这 些 物理 结构 上 和 奉 加 虚拟 按钮 比 仅仅 操纵 虚拟 对 象 要 更 加 快速 和 

在 移动 应 用 等 应 用 中 如 果 没 有 合适 的 表面 可 以 使 用 ， 用 户 的 手 或 者 腹 膊 可 以 作为 替代 品 
使 用 。SixthSense [Mistry and Maes 2009] 和 OminTouch [Harrison et al. 2001] 探索 了 将 界面 
投影 到 用 户 的 手 上 或 小 臂 上 (E 8.23 )。 通 过 使 用 深度 感知 ， 用 户 自 喘 可 以 被 转化 成 为 触 
摸 屏 。 例 如 ， 用 户 可 以 将 手 和 擎 作为 键盘 进行 拨 扎 。 





图 8.23 OmniTouch 使 用 投影 机 和 深度 相机 将 用 户 的 手 转 换 为 触摸 屏 (由 微软 提供 ) 
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8.5 增强 纸 

纸张 是 我 们 日 常生 活 中 的 重要 人 工 制品 。 尽 管 桌面 计算 范式 可 以 在 一 定 程度 上 模拟 纸 质 
类 文件 ， 但 物理 纸张 的 处 理 和 数字 文本 的 处 理 通常 是 分 离 的 。Wellner [1993] 提出 将 物理 文 
本 和 虚拟 文本 管理 相 结 合 ， 引 入 了 DigitalDesk 系统 来 达成 这 一 目的 。DigitalDesk 由 装备 了 
投影 机 - 摄像 机 系统 的 桌面 组 成 ， 物 理 文件 可 以 放置 在 桌面 上 并 被 摄像 头 捕捉 到 ， 而 投影 机 
可 以 通过 额外 的 虚拟 文本 对 桌面 进行 增强 。 通 过 使 用 可 以 被 头 上 方 摄像 机 跟踪 的 手指 或 者 
笔 ， 用户 可 以 对 DigitalDesk 进行 操控 。 借 助 指令 系统 可 以 通过 字符 识别 来 读 取 文本 或 者 数 
字 ， 也 可 以 从 物理 文本 中 捕捉 图 片 。 例 如 ， 用 户 可 以 指向 一 个 手写 数字 并 将 其 移动 到 数字 计 
算 硕 中 进一步 处 理 。 

Mackay 和 Fayard [1999] 描述 了 一 系列 在 日 常 工作 中 极度 依赖 纸张 的 领域 中 DigitalDesk 
概念 的 应 用 。 例 如 ， 这 类 系统 可 以 被 土木 工程 师 用 于 建筑 物 绘图 、 被 电影 制 片 人 用 于 故事 情 
节 串 联 图 以 及 被 空中 交通 管制 员 用 于 绘制 航 币 图 等 。 

日 常 工作 和 生活 中 使 用 的 男 一 种 常见 的 纸 质 工件 是 地 图 。Reitmayr 等 人 [2005] 描述 了 
增强 地 图 ， 这 是 一 种 与 跟踪 和 增强 大 规模 地 图 的 数字 桌面 相关 的 方法 ( 见 图 8.24 )。 例 如 ， 
可 以 在 命令 和 控制 场景 中 使 用 这 样 的 系统 。 动 态 信息 可 以 直接 倒 加 在 地 图 上 ， 同 时 允许 地 理 
嵌入 式 信息 和 界面 控件 的 呈现 。 增 强 地 图 可 以 处 理 多 个 同步 地 图 ， 并 提供 额外 的 工具 与 地 图 
内 容 进 行 互动 。 通 过 放置 被 定位 跟踪 的 空白 卡片 ， 可 以 指向 地 图 上 的 特定 位 置 。 系 统 可 以 使 
用 卡片 上 的 空白 区 域 来 投影 用 户 指向 位 置 拍摄 的 照片 等 相关 信息 。 一 个 更 通用 的 工具 基于 由 
头顶 上 方 摄像 机 跟踪 的 小 型 手持 计算 机 ， 通 过 触摸 屏 操 作 手 持 计算 机 并 提供 了 象征 性 地 与 手 
持 计算 机 指向 的 地 图 上 的 对 象 进 行 交 互 的 任意 用 户 界面 。 为 了 实现 完全 动态 创建 用 户 界 面 ， 
用 户 界 面 的 代码 通过 无 线 网 络 发 送 到 手持 计算 机 并 由 其 进行 动态 解 详 。 





图 8.24 增强 地 图 由 传统 纸 质 地 图 和 投影 的 交互 式 内 容 组 成 (由 Gerhard Reitmayr、 
Ethan Eade 和 Tom Drummond 提供 ) 


PaperWindows 是 单独 跟 踊 的 纸 片 ， 人 允许 用 户 离 开 果 面 并 以 更 自然 的 方式 与 纸张 进 
ÍT H.z) [Holman et al. 2005]。 该 系统 通过 红外 线 跟 足 与 头 上 方 投影 机 确定 用 户 正 在 使 用 
PaperWindows 进行 哪些 操作 ， 并 在 其 上 显示 任意 内 容 。 用 户 可 以 实际 操控 PaperWindows 
并 使 用 各 种 手势 ， 包 括 握 持 、 共 同 定 位 、 校 对 、 翻 转 纸 张 以 及 利用 纸张 上 的 手指 所 做 的 手势 
(如 摩擦 或 指 同等 )。 这 种 手势 语言 的 词典 允许 用 户 无 需 任 何 符 号 界面 执行 各 种 典型 的 办 公文 
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档 任务 ， 如 激活 PaperWindow ， 内 容 的 选择 、 复 制 和 粘贴 ， 加 载 和 保存 ， 滚 动 或 注解 等 。 

Petersen 和 Stricker [2009] 提出 的 界面 同样 结合 了 手势 识别 和 增强 纸 ， 用 户 可 以 指向 物 
理 对 象 ， 通 过 显示 在 壁挂 式 显示 器 上 的 虚拟 纸张 的 形式 进行 上 下 文 信息 检索 。 他 们 的 手势 
通过 头 上 的 摄像 机 进行 采集 ， 同 时 进行 纸 质 文档 的 数字 化 。 用 户 可 以 打印 此 工作 表 的 物理 副 
本 ， 该 副本 能 够 检测 真实 的 手写 注释 并 使 用 不 易 察 觉 的 点 模式 将 信息 传 回 虚拟 空间 。 
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本 章 起 始 部 分 讨论 了 在 环境 中 放置 增强 的 各 种 选项 。 通 过 合适 的 设 定 可 以 同时 对 多 个 位 
置 进行 增强 ， 而 不 仅仅 是 按照 顺序 进行 增强 。 这 种 方案 可 以 强化 用 户 是 一 个 可 响应 环境 一 部 
分 的 印象 ， 或 者 可 以 简单 地 用 于 同时 显示 更 多 的 信息 。 

Elmqvist [2011] 将 分 布 式 用 户 界面 定义 为 “组 件 在 输入 、 输 出 、 平 台 、 空 间 和 时 间 上 一 
维 或 多 维 分 布 的 用 户 界 面 "， 在 这 五 个 维度 中 空间 (多 个 位 置 ) 和 输出 (多 个 显示 器 ) 是 相关 
的 。 我 们 将 涉及 多 个 空间 位 置 或 多 个 显示 器 的 界面 称 为 多 视界 面 。 


8.6.1 多 显示 焦点 + ERM 


当 多 显示 需 功 能 互补 时 ， 与 增强 现实 应 用 特别 相关 。 例 如 ， 二 维 显 示 需 可 以 与 三 维 显 示 
十 结合 ， 小 型 高 分 辨 率 显 示 器 可 以 与 大 型 低 分 辨 率 显示 器 结合 ， 或 者 移动 显示 器 可 以 与 固定 
显示 盏 绪 合 。 这 种 互补 显示 需 通 党 在 同一 位 置 组 对 以 提供 焦点 + 上 下 文 信息 。 我 们 首先 讨论 
与 二 维 内 容 进行 交互 的 多 显示 装置 。 

THAW [Leigh et al. 2014] 使 用 智能 手机 的 摄像 机 跟踪 移动 设备 相对 于 垂直 固定 显示 器 的 
位 置 。 因 为 智能 手机 的 位 置 非常 靠近 显示 需 表 面 ， 智 能 手机 正 下 方 的 图 像 将 变 得 不 可 见 。 可 
以 将 智能 手机 转换 成 魔 镜 来 改变 其 下 方 显示 需 的 视图 ， 并 且 其 触摸 屏 可 用 来 提供 额外 的 输入 
Hie 

与 之 相对 ，Spindler 等 人 [2012] 将 手持 平板 电脑 担 持 在 大 尺 才 水 平 显示 器 上 ， 使 得 用 户 
可 以 同时 看 到 平板 电脑 和 显示 需 。 平 板 电脑 显示 与 显示 器 图 像 平 面 对 齐 的 魔 镜 ， 用 户 可 以 通 
过 修改 平板 电脑 在 显示 器 上 的 高 度 来 选择 一 “ 层 ” 信 息 。 

Rekimoto 等 人 [2001] 提出 了 增强 表面 ， 将 笔记 本 电脑 等 移动 装置 和 带 有 投影 机 - 摄像 
机 系统 的 表面 组 合 。 当 用 户 将 笔记 本 放置 在 增强 表面 上 时 ， 检 测 笔记 本 的 位 置 ， 笔 记 本 周围 
的 增强 表面 区 域 扩展 了 笔记 本 的 显示 区 域 。 这 个 设计 允许 
同时 使 用 有 形 交 互 和 传统 的 更 面 界面 。 


8.6.2 ”共享 空间 


在 可 视 化 领域 ， 协 调 多 视 是 一 种 具有 多 个 视图 的 方 
法 ,它们 不 仅 以 相 邻 或 重合 的 方式 进行 排列 ， 同 时 显示 
同步 的 视觉 表达 。 例 如 ， 如 果 用 户 从 字母 列表 视图 中 选 
定 一 座 城 市 ， 则 相应 的 地 理 位 置 可 以 在 地 图 视图 中 高 亮 
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显示 ， 反 之 亦 然 。 图 8.25 可 以 通过 单独 的 头 戴 式 显 
在 包含 多 个 显示 攻 的 三 维 环境 中 协调 多 视 通 常 以 共 示 器 构建 用 于 协作 查看 
享 空间 的 形式 使 用 ( 见 图 8.25): 所 有 显示 器 共享 一 个 全 虚拟 对 象 的 共享 空间 (由 


局 坐标 系 ， 但 每 个 显示 器 都 有 一 个 单独 的 跟踪 视点 。 因 Anton Fuhrmann 提供 ) 


此 ,任何 地 方 的 增强 都 出 现在 相同 的 三 维 位 置 。 共 享 空间 的 理念 最 初 用 于 探索 多 个 头 戴 式 显 
示 器 [Schmalstieg et al. 1996] [Billinghurst et al. 1998b] 或 手持 式 [Rekimoto 1996] 显示 器 的 
协作 。 

Butz 等 人 [1999] 提出 的 虚拟 空间 (ILE 8.26 ) 用 一 对 多 关系 代替 用 户 和 共享 空间 显示 器 
之 间 的 一 对 一 关系 。 放 置 在 虚拟 空间 的 增强 信 Too 手持 式 和 投影 式 等 多 种 显示 
“el, WEA IAS aN EAA, eS PSE at. he a 


=A A 





图 8.26 ”虚拟 空间 是 用 户 周 围 空 间 的 三 维 模型 ， 可 以 包括 虚拟 对 象 并 可 以 通过 各 种 显示 
艇 进行 观察 ， 包 括 笔记 本 电脑 、 支 面 投影 和 头 戴 式 显 示 大 (由 哥伦比亚 大 学 提供 ) 


在 虚拟 空间 中 ， 用 户 不 再 被 局 限于 单一 的 显示 器 。 相 反 ， 他 们 可 以 在 多 个 显示 带 间 进行 
切换 并 且 可 以 同时 观察 多 个 显示 需 。 人 例如， 用户 可 以 在 使 用 穿 透 式 头 戴 显 示 需 或 手持 显示 着 
的 同时 观看 固定 显示 需 。 该 配置 可 用 来 在 桌面 显示 需 显 示 总 览 图 的 同时 由 用 户 控制 显示 在 被 
Ca [Ullmer and Ishii 1997] [MacWilliam et al. 2003]. 

MultiFi [Grubert et al. 2015] iH tS RUSK fb AN ai A fh ec Sk aN a (CE EFL Bk BE Fe ) 
oe AY SERS ib AN aie SEO PAS AY ee PS TB], AE ASK as i A iy oF fF Se 
了 情景 显示 (ULA 8.27), Bebo A eb aah FERRE FRE, Abin ASE ly 
上 是 以 手臂 作为 参考 并 以 手臂 作为 额外 的 显示 平面 。 也 可 以 使 用 以 世界 作为 参考 的 坐标 系 。 





b) 


图 8.27 a) {FHEIL Eaa FIN PS ER Ae Ah aN ET HE; b) A 
能 手机 从 下 辟 选 择 一 个 图 标 (由 Jens Grubert 提供 ) 


8.6.3 ”多 位 置 
多 位 置 界 面 写 共 至 空间 的 区 别 在 于 多 位 置 界面 在 多 显示 带 之 间 不 使 用 统一 的 三 维 坐 标 


A 
ey 
bi 
‘OO 
be. 


系 。 与 之 相反 ， 虚 拟 对 象 可 以 出 现在 每 台 显 示 器 上 的 不 同位 置 。 这 种 类 型 的 系统 对 于 将 增强 
注册 到 具体 的 物理 对 象 上 用 处 不 大 ， 但 对 于 仅 呈 现 虚 拟 对 象 或 增强 通用 的 有 形 物体 提供 了 很 
大 的 灵活 性 。 

Studierstube [Schmalstieg and Hesina 2002] 允许 在 每 个 显示 疾 上 使 用 单独 的 区 域 ( 见 图 
8.28 ) 。 例 如 ， 两 个 头 戴 式 显示 需 的 用 户 都 可 以 将 相同 的 虚拟 对 象 绑 定 到 一 个 手持 的 有 形 物 
EE. 随后 ， 每 个 用 户 都 可 以 转动 有 形 物 体 以 获得 虚拟 对 象 的 所 需 视 点 。 任 何 一 个 用 户 对 虚 
拟 对 象 所 做 的 操作 都 可 以 与 男 一 个 用 户 进 行 共有 至 。 





a) b) 





图 8.28 ”用 户 将 移动 显示 器 (笔记 本 电脑 ) 移动 到 桌子 上 并 排 布置 的 多 个 位 置 ， 请 注意 ， 
笔记 本 始终 显示 与 其 相 邻 的 同一 区 域 固 定 显 示 需 相同 的 内 容 (由 Gered Hesina 
和 Gerhard Reitmayr 提供 ) 


多 位 置 的 另 一 个 用 途 是 将 以 外 部 为 中 心 的 视图 和 以 自我 为 中 心 的 视图 组 合 到 一 个 虚拟 场 
景 中 。 这 样 的 组 合 在 焦点 + 上 下 文 显示 器 中 十 分 有 用 ,但 是 不 能 在 共享 空间 中 方便 地 导航 ， 
其 原因 在 于 用 户 的 任何 运动 都 会 同时 改变 两 个 视点 。 将 多 个 视图 解 灶 到 分 离 的 区 域 可 以 解决 
这 一 问题 。 例 如 ， 桌 面 显 示 器 可 以 显示 全 景 地 图 ， 而 墙 面 显示 器 显示 虚拟 场景 的 第 一 人 称 视 
ff [Brown et al. 2003] 

场景 的 三 维 概述 有 时 被 称 作 微型 世界 [Stoakley et al. 1995]， 也 可 以 通过 头 戴 式 显示 器 
( 见 图 8.29 ) 进行 显示 ， 而 以 外 部 为 中 心 的 视图 使 用 墙 面 显 示 融 进行 显示 [Schmalstieg et al. 
2000] 或 直接 在 头 戴 式 显示 天 中 对 真实 物体 进行 增强 〈 见 图 8.30 ) [Bell et al. 2002]。 

当然 如 果 用 户 进行 选择 ， 任 何 两 个 位 置 都 可 以 形成 共享 空间 。 随 着 时 间 推 移 更 改 位 置 关 
联 ， 人 允许 用 户 在 共享 空间 中 使 用 空间 注册 的 信息 ， 之 后 可 以 将 某 一 位 置 从 共享 空间 中 分 离 ， 


a 
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以 便 在 运动 中 或 在 其 他 位 置 使 用 ， 





图 8.29 ”能 够 同时 看 到 墙 面 投影 上 的 第 一 人 称 视 图 以 及 通过 头 戴 式 显 示 器 看 到 的 第 三 人 
称 视 图 (由 Gerd Hesina 和 Anton Fuhrmann 提供 ， 见 彩 插 ) 





图 8.30 ”微型 世界 展示 了 环境 的 总 览 ， 同 时 第 一 人 称 视图 直接 显示 了 环境 中 的 标签 (由 
哥伦比亚 大 学 提供 ) 


8.6.4 ” 跨 视 图 交互 

依赖 于 协同 多 视 原 理 的 方法 是 隐 式 同步 的 ， 即 对 一 个 视图 的 更 新 将 立即 更 改 所 有 其 他 视 
图 。 与 之 相对 ， 跨 视图 交互 提供 显 式 同步 。 例 如 ， 用 户 可 以 将 项 目 从 一 个 视图 拖 搜 到 男 外 一 
个 视图 。 

这 个 理念 最 初 由 Rekimoto [1997] 提出 并 被 命名 为 拾取 一 放下 ， 用 于 传统 的 二 维 显 示 侨 
和 输入 设备 。 空 间 显 示 器 ， 特 别 是 移动 显示 需 的 出 现 允 许 在 路 视图 交互 期 间 获 得 更 好 的 视觉 
反馈 ， 其 原因 在 于 移动 显示 融 可 以 显示 交互 过 程 中 被 拖 动 物体 的 视觉 表示 。 例 如 ， 增 强 表面 
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[Rekimoto and Saitoh 1999] 允许 用 户 将 对 象 移动 到 笔记 本 、 桌 面 或 墙 面 显 示 器 等 相 邻 的 显示 
fF 上 上 。EMMIE [Butz et al. 1999] 文 持 通过 被 跟踪 的 输入 设备 进行 显示 设备 之 间 的 拖 放 以 及 将 
对 象 方便 地 放置 在 虚拟 空间 中 的 任何 位 置 ， 而 不 仅仅 是 放置 在 表面 上 。Benko 等 人 [2005] 4 
述 的 跨 维 手势 允许 改变 物体 的 维度 ， 从 而 可 以 在 二 维 桌 面 显示 和 桌面 上 的 三 维 虚 拟 空间 之 间 
来 回 移动 (HL 8.31). 








图 8.31 跨 维 手势 可 用 于 将 物体 从 二 维 触摸 平面 拖 到 三 维 空间 之 中 (由 哥伦比亚 大 学 提供 ) 


Lightspace [Wilson and Benko 2010] 允许 用 户 从 平面 中 拾取 虚拟 对 象 ， 抓 在 手中 ， 放 置 
在 其 他 平面 上 或 者 交 给 其 他 用 户 。 底 层 的 投影 机 — 摄像 机 系统 实时 地 将 环境 中 包括 用 户 的 所 
有 对 象 进行 数字 化 并 将 它们 视 为 可 交互 的 平面 。 在 这 种 表示 方式 下 ， 交 互 场所 可 以 仅 为 空间 
区 域 并 且 不 需要 和 任何 特定 的 显示 需 进 行 关联 。 

Touch Projector [Boring et al. 2010] 使 用 智能 手机 的 内 置 摄像 机 来 跟踪 智能 手机 相对 于 
均 面 显示 需 的 姿态 创建 虚拟 手电 简 。 通 过 触摸 智能 手机 屏幕 上 实时 视频 中 墙 面 显 示 器 显示 的 
物体 ， 可 以 实现 对 增 面 显示 需 中 物体 的 远程 操控 。Virtual Projection [Baur et al. 2012] 使 用 
类 似 的 技术 手段 来 模拟 带 有 智能 手机 的 手持 式 投影 仪 ， 可 以 投射 互动 投影 到 墙 面 显示 器 上 。 


8.7 MJEH 

我 们 之 前 提 到 过 有 形 物 体 或 表面 无 需 额 外 工作 就 可 以 让 增强 现实 从 被 动 触觉 反馈 中 受 
益 。 然 而 ， 为 虚拟 对 象 汰 加 触 党 反馈 具有 很 大 的 挑战 性 。 目 前 触 力 觉 显示 器 仍然 十 分 昂贵 
多 雁 。 最 篆 见 的 触 力 党 显 示 融 是 融 有 末端 执行 锅 的 铵 接 臂 ， 可 以 与 指 尖 或 触 控 笔 相 连 ， 例 如 
Sensable 的 Phantom (http:/www.sensable.com/)。 它 的 工作 范围 有 限 ， 且 触 力 觉 显示 输出 仅 
仅 是 一 个 局 。 

在 增强 现实 中 ， 使 用 触 力 党 显 示 需 的 主要 实际 问题 是 显示 需 遮 挡 视 野 中 的 其 他 真实 物 
体 。 光 学 透视 式 显 示 需 将 虚拟 对 象 半 透明 地 大 加 在 用 户 感知 的 真实 世界 上 。 这 种 方法 只 有 当 
虚拟 场景 很 有 趣 并 且 将 真实 世界 的 光照 调整 到 只 有 用 户 的 手 (而 不 是 触 力 觉 显示 器 ) 被 照 亮 
时 是 有 效 的 。 

视频 透视 式 显 示 需 提供 了 另外 一 种 基于 消 隐 现实 的 解决 方案 (参见 第 6 章 )， 使 用 任意 的 
视觉 内 容 蔡 换 被 触 力 觉 设备 遮挡 的 像素 ( 见 图 8.32 )。 用 户 的 手 或 者 其 他 真实 物体 可 以 被 分 
Fa FE A ooh FE A BE PH RH [Sandor et al. 2007]。 触 力 觉 设备 本 身 的 检测 可 以 通过 色 度 键 控 
[Yokokohji et al. 1999] au FREE ie ASS [Cosco et al. 2009] 来 实现 ， 
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图 8.32 触 力 觉 增强 现实 的 实例 ， 人 允许 用 户 在 虚拟 杯子 上 进行 绘画 ， 具 有 由 触 力 觉 臂 提 
供给 画 刷 的 力 反 馈 (由 Christian Sandor 提供 ) 


8.8 多 模 态 交互 

到 目前 为 止 ， 我 们 只 考虑 了 单一 的 交互 方式 。 当 然 ， 人 类 实际 上 同时 使 用 其 感官 和 能 
力 ， 因 此 当代 计算 机 接口 将 多 种 形式 的 输入 或 输出 组 合成 为 多 模 态 交互 。 除 键盘 和 鼠标 之 
外 ， 最 第 用 的 输入 设施 是 语音 、 手 势 、 和 触摸、 凝视 、 头 部 方向 和 身体 动作 。 也 使 用 笔 输入 或 
触 力 党 等 其 他 形式 的 交互 。 

多 模 态 接口 的 一 个 关键 理念 是 通过 同时 使 用 多 个 感知 通道 将 不 同 的 技术 取长补短 。 但 是 
最 终 多 模 态 输入 的 成 功 解 译 需 要 将 各 种 输入 通道 适当 组 合并 相互 消 上层 ， 即 一 个 动作 被 完全 定 
义 为 多 个 输入 通道 的 联合 解 译 。 这 已 经 成 为 多 模 态 界面 的 主要 科学 研究 领域 。 

对 目 然 界面 的 追求 促成 了 对 多 模 态 交互 的 持续 兴趣 。 这 一 领域 开创 性 的 工作 是 Media 
Room [Bolt 1980]， 通 和 常 被 称 为 “ 放 在 那里 ”。 它 允许 沉浸 在 虚拟 现实 环境 中 的 用 户 通 过 手 
势 、 凝 视 和 语音 的 组 合 控制 对 象 放 置 和 进行 其 他 活动 。 

SenseShapes [Olwal et al. 2003] 通过 计算 附着 在 用 户 身 体 上 几何 形状 的 统计 量 ， 增强 对 
注视 或 指 癌 体 等 多 模 态 输入 的 解 译 。 这 些 测量 描述 了 获得 物体 的 特性 ， 包 括 物体 停留 在 体内 
的 时 间 、 物 体 进 入 和 退出 体 的 次 数 、 到 用 户 的 距离 或 遮挡 数量 等 。 这 些 计算 属性 的 组 合 可 以 
消除 包括 语音 在 内 的 用 户 多 模 态 输入 的 歧义 [Kaiser et al. 2003]。 

如 果 事 先 已 知 特定 的 应 用 领域 ， 则 一 项 用 于 消除 多 模 态 输入 歧义 的 重要 技术 是 用 一 系列 
规则 等 领域 知识 来 补充 传感器 处 理 。Irawati 等 人 [2006] 已 经 证 明了 用 手势 和 语音 同时 进行 
室内 设计 应 用 程序 控制 [Kato et al. 2000] 的 能 力 。 通 过 在 时 间 上 关联 手势 和 语音 输出 ， 他 们 
的 系统 可 以 推 半 出 用 户 可 能 想 要 做 出 的 动作 。 例 如 ， 只 有 当 一 件 家 具 可 以 站 立 并 且 有 足够 的 
空间 来 放置 时 ， 放 置 这 一 家 具 的 操作 才 会 被 感知 到 。 系 统 同样 可 以 处 理 相 对 于 环境 的 位 置 陈 
述 ， 例 如 “在 桌子 后 面 ”将 提示 系统 识别 用 户 正 在 注视 哪 张 桌 子 并 计算 出 与 用 户 站 立 点 相反 
的 果子 男 一 侧 的 位 置 区 域 。 

Heidemann 等 人 [2004] 提出 了 一 个 多 模 态 交互 框架 ,不 仅 能 够 处 理 语音 和 手势 ， 还 学 
习 通 过 视觉 识别 环境 中 的 对 象 并 记 住 它们 。 在 应 用 增强 现实 的 典型 易 变 环境 中 ， 对 象 不 断 出 
现 和 消失 ， 对 新 对 象 的 识别 是 非常 重要 的 能 力 ， 
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8.9 会 话 代 理 

人 类 有 非常 丰富 的 手段 进行 相关 沟通 ， 包 括 言语 、 手 势 、 眼 神 接触 等 方式 。 动 画 代理 骨 
在 利用 人 类 的 交流 属性 ， 从 而 可 以 使 交互 界面 更 加 高 效 。 动 画 代理 (有 时 称 作 具 身 代理 或 接 
ORE) 必须 具有 可 视 表 示 和 某 种 程度 的 目 主 智能 。 在 这 种 情境 下 的 智能 意味 着 代理 可 以 感 
知 和 针对 环境 采取 行动 ， 并 且 可 以 独立 于 用 户 和 环境 来 确定 自我 行为 。 

动画 代理 经 常 被 用 于 填充 虚拟 世界 ， 在 计算 机 游戏 中 很 常见 。 增 强 现实 研 究 人 员 最 感 兴 
趣 的 方法 是 将 具有 多 模 态 输入 和 输出 的 动画 角色 相 结 合 。 借 助 这 一 策略 ， 动 画 代理 可 以 通过 
分 析 传 感 费 数据 来 获取 信息 并 提供 音 视频 输出 。 尤 其 ， 身 体 姿态 、 手 势 分 析 和 语音 识别 经 常 
用 来 驱动 代理 的 模拟 感知 。 当 将 语音 用 作 交 互 手段 时 底层 机 制 称 为 具 身 会 话 代理 。 

用 作 增 强 现实 界面 的 动画 代理 的 相关 性 来 自 具 身 会 话 代 理 对 人 类 用 户 的 特殊 需求 。 增 强 
现实 应 用 程序 可 以 将 代理 放 人 一 个 只 存在 人 类 用 户 的 真实 环境 ， 从 而 产生 一 种 “陪伴 ”的 感 
人 党。 尽管 人 类 知道 这 种 体验 是 由 计算 机 生成 的 ， 但 他 们 似乎 仍然 对 这 种 类 型 的 界面 做 出 积极 
的 回应 。 

例如 ，Maes 等 人 [1997] 描述 的 ALIVE 系统 提供 了 一 个 “ 魔 镜 ” 环 境 ， 用 户 在 大 屏幕 上 
看 到 自己 的 数字 镜像 。 用 来 驱动 魔 镜 的 输入 视频 被 用 作 人 体 姿 态 分 析 ， 进 而 输出 用 户 在 空间 
中 的 位 置 估 计 和 由 手 部 和 胸 膊 组 成 的 手势 。 系 统 也 提供 了 语音 指令 ， 用 户 可 以 控制 各 种 仿真 
生物 。 最 受 欢迎 的 案例 是 具备 饮水 和 睡觉 等 自主 行为 的 狗 ， 可 以 与 用 户 进行 交互 ， 包 括 遵循 
指令 或 被 当 作 宠物 。 

“ 魔 镜 ” 隐 喻 阻止 了 用 户 进 入 到 代理 的 世界 中 。Anabuki 等 人 [2000] 认为 让 用 户 和 代理 
耻 接 共计 同一 物理 环境 是 增强 现实 代理 最 有 趣 和 最 有 特色 的 功能 。 他 们 介绍 了 Welbo， 一 种 
通过 透视 式 头 戴 显 示 器 观察 的 动画 生物 ( 见 图 8.33 )。Welbo 可 以 通过 语音 合成 进行 表达 并 
况 别 用 户 的 口头 指令 。 它 可 以 根据 用 户 的 指令 行动 ， 例 如 在 真实 的 起 居室 中 移动 虚拟 家 具 。 
它 可 以 感知 真实 的 物理 环境 ， 例 如 ， 避 免 站 在 用 户 前 进 的 道路 上 。 





a) b) 


图 8.33 Welbo 是 用 于 用 户 室 内 设计 咨询 的 动画 代理 (由 Hiroyuki Yamamoto 提供 ) 


Cavazza 等 人 [2003] 将 增强 现实 代理 与 故事 叙述 引擎 相 结 合 。 在 他 们 的 系统 中 ， 用 户 被 
投射 为 一 个 特定 的 角色 ， 在 叙述 故事 情节 时 可 以 使 用 肢体 语言 和 言语 命令 来 影响 故事 情节 。 
MacIntyre 等 人 [2001] 也 将 增强 现实 应 用 于 交互 式 的 故事 叙述 。 他 们 提出 了 不 基于 三 维 泻 染 
图 形 的 动画 角色 表示 ， 采 用 了 骨 入 真实 环境 的 预先 录制 的 视频 片段 。 录 制 视频 需要 与 人 类 演 
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员 合作 ， 可 以 提供 比 计算 机 动画 更 丰富 的 物理 和 语言 表达 。 当 然 这 一 做 法 的 缺点 是 所 有 行为 
序列 必须 事先 已 知 昌 不 能 在 运行 中 通过 计算 获得 。 

MacIntyre 等 人 [2001] 的 工作 使 用 光学 透视 式 显 示 右 ， 因 此 将 基于 视频 的 代理 呈现 为 部 
分 透明 的 角色 。 作 为 一 个 适当 的 配置 ， 他 们 更 喜欢 将 以 往 幽 灵 般 外 表 的 环境 当 作 故事 情节 中 
的 可 信 部 分 ， 这 包括 墓地 中 的 幽灵 或 历史 建筑 的 前 居民 。 沿 着 这 一 方向 进一步 的 工作 是 AR 
Karaoke [Gandy et al. 2005]， 用 户 被 赋予 戏剧 角色 并 与 虚拟 角色 一 同 重 新 制作 著名 电影 中 的 
场景 。 

有 些 人 研究 人 员 已 将 动画 代理 纳入 增强 现实 设置 中 ,探索 了 不 同类 型 的 应 用 程序 。 
Balcisoy 等 人 [2001] 在 增强 现实 中 使 用 虚拟 人 作为 协作 游戏 伙伴 。Vacchetti 等 人 [2003] 使 
用 虚拟 角色 来 演示 训练 场景 内 工厂 机 器 的 使 用 。Schmeil 和 Broll [2007] 描述 了 伴随 用 户 左 
右 并 充当 个 人 秘书 的 代理 MARA ， 可 以 记 笔 记 和 发 布 关 于 约会 日 程 的 提醒 。 

Barakonyi 等 人 [2004b] 认为 应 该 将 增强 现实 代理 视 为 有 感知 或 无 处 不 在 计算 环境 的 一 
部 分 一 一 换 句 话说 ,一 个 有 能 力 以 最 恰当 的 方式 回应 人 为 事件 的 真实 环境 。 这 暗示 了 代理 可 
以 是 多 具 身 的 纯 虚 拟 、 纯 真实 或 两 者 的 混合 (OLA 8.34 )。 代 理 需要 自 适 应 的 改变 其 行 
为 以 最 大 限度 地 利用 环境 资源 . 








图 8.34 a) 不 同 具 身 的 增强 现实 乐高 代理 ， 包 括 真实 、 增 强 或 者 虚拟 。b) 男 一 个 代理 
( 即 卡 通 人 物 ) 指 叶 用 户 组 疙 车 辆 (由 Istvan Barakonyi 提供 ) 


作为 具体 的 案例 ， 他 们 介绍 了 可 以 引导 用 户 组 装 自 驱动 乐高 机 器 人 的 基于 代理 的 系统 。 
机 做 人 目 身 是 具有 多 个 具 身 的 代理 ， 包 括 真实 对 象 及 其 对 应 的 虚拟 对 象 。 考 虑 将 车 轮 连 接 到 
正在 疼 配 的 机 天 人 的 任务 ， 在 将 车 轮 连 接 到 机 需 人 帮 吴 之 前 ， 虚 拟 车 轮 显 示 了 如 何 安装 真实 
车 轮 。 成 功 安 装 桔 轮 后 ， 虚 拟 车 轮 将 不 再 被 需要 ， 同 时 真实 的 车 轮 可 以 通过 机 器 人 的 电机 单 
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元 进行 旋转 ， 从 而 用 户 可 以 验证 车 轮 是 否 已 被 正确 安装 。 为 了 实现 这 种 交互 模式 ， 代 理 必 须 
具备 在 多 个 具 身 之 间 进 行 切换 的 能 力 。 

另 一 个 实例 是 可 以 在 多 个 显示 器 之 间 进 行 迁 移 来 寻找 最 合适 显示 吾 的 会 话 代 理 。 例 如 ， 
个 人 信息 可 以 发 送 到 用 户 的 智能 手机 屏幕 上 ， 而 公告 信息 可 以 显示 在 墙 面 的 大 型 显示 屏 上 。 


8.10 h% 


增强 现实 中 的 交互 风格 是 多 方面 的 ， 反 映 了 增强 现实 应 用 和 效 备 的 丰富 多 样 性 。 所 有 
交互 技术 中 的 一 个 共同 特征 是 将 用 户 周围 的 真实 环境 作为 界面 的 一 部 分 。 真 实 环境 的 作用 可 
以 是 次 要 或 主要 的 ， 次 要 的 作用 是 仅仅 作为 被 计算 机 生成 信息 增强 的 痛 景 ， 主 要 的 作用 是 作 
为 有 形 界面 使 用 。 理 想 情 况 下 ， 物 理 环境 提供 的 功能 得 到 充分 利用 一 一 例如 增强 真实 表面 或 
纸 质 工 件 ， 或 者 使 用 触 力 觉 反馈 。 真 实 环境 为 多 视图 界面 提供 了 参考 坐标 系 ， 人 允许 用 户 在 增 
强 世 界 中 建立 不 同 的 视图 。 此 外 ， 多 模 态 交互 可 以 使 增强 现实 内 容 更 加 丰富 ， 交 互 更 加 便 
捷 ， 并 通过 代理 成 为 通信 的 自然 搭配 。 
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与 增强 现实 的 交互 令 人 兴奋 ， 但 如 果 只 有 已 经 存在 的 内 容 可 用 则 最 终 就 会 受 限 。 建 模 和 
注释 使 增强 现实 用 户 可 以 创建 被 空间 注册 到 现实 世界 中 的 新 内 容 。 与 事先 准备 的 几何 和 视觉 
内 容 不 同 ， 在 与 任务 位 置 分 离 的 设 定 中 ， 人 情境 建 模 提供 了 直接 在 当前 位 置 工 作 的 可 能 ， 从 而 
证 明 真 实 世界 的 输入 是 真实 的 。 

几何 和 外 观 的 建 模具 有 许多 专业 和 个 人 的 应 用 。 计 算 机 辅助 设计 ( CAD) 软件 可 以 用 来 
准备 建筑 、 交 通 、 机 械 和 电子 工程 、 电 影 和 游戏 的 模型 。 通 常情 况 下 ， 这 些 模 型 不 是 孤立 存 
在 的 ， 而 是 应 该 适应 已 有 的 环境 。 鉴 于 传统 建 模 是 桌面 或 绘图 板 上 的 活动 ， 许 多 专业 建 模 人 
员 将 工作 时 间 分 配 在 台式 计算 机 和 建立 模型 上 。 无 论 物体 是 否 最 终 部 署 在 环境 中 都 是 这 样 。 
例如 ， 建 筑 物 应 该 始终 适应 其 周围 环境 ， 这 与 其 是 物理 建筑 物 还 是 将 现 有 的 城市 社区 重新 创 
建 用 于 计算 机 游戏 无 关 。 

在 昌 面 和 任务 位 置 之 间 来 回 切换 是 烦琐 和 低 效 的 。 这 不 仅 需要 花费 时 间 通 勤 和 环境 转 
换 ， 更 重要 的 是 ， 建 模 变 化 对 环境 的 影响 并 不 是 显而易见 的 。 情 境 建 模 可 以 通过 让 用 户 直接 
在 任务 位 置 执 行 建 模 工作 来 克服 这 一 缺陷 。 

增强 现实 可 以 让 用 户 直 接 看 到 真实 世界 的 维度 ， 而 不 需要 用 测 尺 确定 距离 并 将 结果 输入 
到 CAD 软件 中 。 这 种 交互 的 结果 是 立即 可 见 的 ， 如 果 它 们 没有 表示 所 需 的 状态 则 可 以 对 其 
进行 修改 。 在 一 个 简单 的 例子 中 ， 用 户 可 以 将 虚拟 物体 放 在 真实 表面 上 并 判断 这 是 否 合适 。 
使 用 增强 现实 进行 情境 建 模 有 许多 可 能 的 应 用 ， 包 括 建 筑 和 施工 的 规划 、 技 术 设施 的 布置 、 
产品 设计 、 室 内 装饰 以 及 如 同 Minecraft 的 娱乐 “ 沙 盒 ”游戏 。 它 包括 以 任何 形式 获取 已 有 
物理 工件 几何 模型 的 三 维 重 建 。 

在 本 章 中 ， 我 们 研究 几何 和 外 观 方 面 的 建 模 ， 这 只 产生 不 包含 任何 计算 行为 的 被 动 内 
容 。 我 们 首先 手动 获取 几何 和 外 观 ， 然 后 检测 半自动 重建 方法 。 其 余 章 节 研 究 非 平面 形状 和 
注释 的 自由 曲面 建 模 ， 后 者 将 几何 形状 与 用 户 定义 注释 相关 联 。 增 强 现 实 应 用 中 的 行为 规范 
将 在 第 10 章 中 讨论 。 


9.1 指定 几何 


建 模 的 基本 问题 是 几何 图 元 的 规范 。 在 本 节 中 ， 我 们 专注 于 简单 的 多 边 形 几 何 : 包括 点 、 
面 和 体 。 虽 然 所 得 到 的 几何 实体 类 似 于 台式 CAD 中 的 数据 结构 ， 但 是 增强 现实 中 物理 运动 
的 需要 导致 输入 技术 是 不 同 的 。 


9.1.1 点 


人 类 操作 员 的 任何 空间 输入 总 是 可 以 根据 相关 工作 空间 是 否 在 手臂 的 范围 内 或 是 否 用 
户 在 远 距 离 (或 者 是 必须 覆盖 长 距离 的 户外 环境 ) 操控 进行 分 类 。 在 手臂 的 范围 内 最 简单 且 
最 上 自然 的 方法 当然 是 让 用 户 直接 指向 预定 位 置 一 一 例如 ， 使 用 追踪 手套 或 触 控 笔 [Lee et al. 
2002]. 


然而 ， 在 大 多 数 情况 下 需要 远程 操作 。 
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交叉 (UL 9.1). 





图 9.1 目 由 空间 中 的 三 维 点 可 以 通过 两 条 射线 的 交点 来 指定 


作为 交点 的 蔡 代 ， 我 们 可 以 明确 指定 距离 。 例 如 ， 可 以 通过 使 用 鼠标 滚轮 或 类 似 仪器 采 
用 “钓鱼 卷轴 ”技术 移动 点 来 定义 距离 [Bunnun and Mayol-Cuevas 2008] [Simon 2010]。 用 
于 指定 沿 着 射线 的 点 的 两 种 方法 都 期 望 用 户 随 后 从 指定 射线 的 位 置 移 开 ， 从 而 可 以 判断 距离 
输入 。 

及 一 种 为 点 指定 第 三 维度 的 方法 是 问 用 户 提供 蔡 代 透视 图 。 例 如 ，Wither 等 人 [2006] 
提出 让 用户 选择 基于 用 户 当 前 GPS 坐标 检索 的 航空 图 像 中 的 二 维 位 置 ( 见 图 9.2 ) 。 在 户外 
使 用 时 ， 当 为 了 投射 第 二 条 射线 必须 完成 移动 到 足够 远 的 位 置 这 一 乏味 的 工作 时 ， 这 种 方法 


更 加 方便 。 


Webion Annotation Mode 





图 9.2 ”通过 在 第 一 人 称 视 图 中 指定 两 个 维度 并 在 对 应 的 航空 图 像 (左下 角 的 插图 ) 中 指 
定 第 三 个 维度 (距离 ) 创建 示例 注释 。 在 这 种 情况 下 ， 区 域 注释 被 泻 染 为 线 框 包 
Fal (ME) 


这 种 交互 通常 由 射线 投射 的 变 体 进行 。 也 就 是 
说 ， 用 户 将 源 目 身体 部 分 ( 即 头 (凝视 ) 或 手 ) 的 射线 发 射 到 环境 中 。 射 线 方 向 由 单独 的 身 
体 部 位 天 回 或 两 个 身体 部 分 之 间 的 向 量 (从 头 到 手 或 从 手 到 手 ) 来 指定 。 
一 条 射线 相交 的 第 二 条 射线 来 确定 一 个 点 [Bunnun and Mayol-Cuevas 2008]。 然 后 将 该 点 计 
算 为 这 两 条 射线 之 加 最 小 距离 的 中 心 ， 因 为 在 自由 手动 操作 中 通常 不 能 实现 两 条 射线 的 精确 


可 以 通过 指定 与 第 
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对 于 任何 类 型 的 点 规范 来 说 ， 有 用 的 增强 是 当 新 位 置 足够 接近 时 ， 为 现 有 点 、 线 或 多 边 
形 提供 自动 捕捉 。 


9.1.2 平面 


虽然 单个 点 本 身 可 以 用 于 增强 现实 中 注释 的 锚 点 ， 但 大 多 数 几 何 应 用 会 涉及 平面 结构 
[Piekarski and Thomas 2004]。 平 面 可 以 通过 多 种 方式 定义 ( 见 图 9.3 )。 定 义 任意 平面 最 明 
显 的 方法 是 选择 三 个 点 。 这 些 点 可 以 在 物理 表面 上 ， 但 这 不 是 必需 的 。 例 如 ， 可 能 只 有 两 个 
点 位 于 表面 上 ， 而 第 三 个 点 定义 新 平面 相对 于 表面 的 角度 。 如 果 新 平面 与 现 有 平面 正 交 则 不 
需要 第 三 个 点 。 需 要 注意 的 有 是， 如果 没有 物理 平面 ， 可 以 通过 类 似 的 方式 利用 现 有 的 自由 空 
间 平 面 创建 一 个 新 的 平面 。 





c) d) e) 


妈 9.3 五 种 定义 平面 的 方法 : a) 三 点 法 。b) 两 个 点 在 现 有 平面 中 重新 使 用 ， 第 三 点 表 
Rie. c) 平面 与 连接 用 户头 部 和 重力 方向 的 回 量 对 齐 。d) 平面 与 连接 用 户头 
部 和 手 部 的 向 量 正 交 ， 并 与 重力 方向 对 齐 。e) 平面 包含 用 户 的 手 ， 并 与 重力 方 
向 正 交 


当 存在 重力 传感器 时 ， 可 以 通过 用 户 的 观察 方向 定义 垂直 平面 ， 并 且 可 以 通过 为 高 度 指 
定单 个 点 来 定义 水 平平 面 。 此 外 ， 可 以 通过 指定 偶 移 量 将 平面 定义 为 与 现 有 表面 或 平面 平 
行 。 这 包括 平行 于 观察 平面 的 平面 。 


9.1.3 体 


通常 点 和 平面 的 规范 只 是 几何 建 模 过 程 的 中 间 步 骤 ， 用 户 最 终 的 兴趣 在 体 上 。 获 得 这 种 
体 的 最 直接 方法 是 将 点 与 边 连 接 形 成 多 边 形 ， 然 后 通过 聚合 多 边 形 形成 体 [Lee et al. 2002] 
[Simon 2010]。 由 于 拭 层 对 象 的 复杂 性 ， 这 种 方法 可 能 很 烦琐 且 容 易 出 错 。 

出 于 这 些 原 因 ， 一步 生 成 体 对 象 并 确保 其 水 密 和 拓扑 有 效 的 操作 更 为 可 取 。 一 个 简单 的 
方法 是 通过 指明 一 个 基本 和 矩形 和 一 个 高 度 来 指定 一 个 框 。 一 般 而 言 ， 挤 压 是 创造 适当 的 体 
的 一 种 流行 方法 [Baillot et al. 2001] [Piekarski and Thomas 2001] [Bunnun and Mayol-Cuevas 
2008] [van den Hengel et al. 2009]。 借 助 平面 基本 形状 (例如 多 边 形 或 圆 形 ) 和 沿 着 法 线 的 高 
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度 的 指示 可 以 创建 挤 压 形状 CREE. ETE TREE ACI EAS) OLR 9.4 )。 一些 系统 还 支持 
旋转 挤 压 或 镜像 。 





图 9.4 基于 图 像 的 本 地 建 模 系 统 JIM 允许 用 户 在 SLAM 图 的 关键 帧 中 直接 绘制 多 边 形 
表面 的 边框 (由 Anton van den Hengel 提供 ) 


更 复杂 的 体形 状 建 模 经 常 采用 推定 实体 几何 ， 即 体 联 合 、 交 又 和 差 值 的 组 合 。 这 些 操作 
可 以 对 现 有 体 (例如 ， 挤 压 ) 或 一 组 平面 进行 操作 。 每 个 平面 定义 了 一 个 半空 间 ， 包 括 正法 
器 量 一 侧 的 所 有 点 。 通 过 空间 雕刻 相交 半空 间 形 成 一 个 体 : 每 个 平面 移 除 一 部 分 空间 ， 从 而 
剩 下 所 需 的 体 ( 见 图 9.5 )。 如 前 所 述 ， 指 定 垂 直 和 水 平平 面 ， 并 与 其 半空 间 相 交 是 对 建筑 物 
和 其 他 大 型 人 造物 体 进 行 建 模 的 有 用 方法 [Piekarski and Thomas 2004]。 


雕刻 体 





ww 
We 
a. 





图 9.5 通过 在 观察 方向 上 指定 多 个 工作 平面 并 与 所 得 到 的 半空 间 相 交 ， 可 以 快速 指定 
形 如 建筑 物 等 的 体积 轮廓 


9.2 指定 外 观 


与 任何 其 他 几何 建 模 方法 相 比 ， 增 强 现实 的 一 个 显著 优点 是 其 使 用 的 实时 视频 具有 丰富 
的 外 观 信息 。 相 应 地 ， 数 字 化 真实 世界 对 象 的 表面 纹理 可 以 通过 基于 图 像 的 建 模 实时 获取 。 
假设 已 知 多 边 形 几何 ， 并 且 多 边 形 不 会 相对 于 图 像 平 面 过 度 倾斜 ， 则 可 以 直接 从 图 像 中 获取 
多 边 形 的 纹理 [Lee et al. 2002]。 可 以 通过 人 允许 用 户 利用 新 的 摄像 机 图 像 中 的 像素 选择 性 地 替 
换 纹理 部 分 来 修复 由 遮挡 或 镜面 反射 导致 的 纹理 损坏 [van den Hengel et al. 2009]。 

除了 外 观 获 取 外 ， 设 计 师 也 对 外 观 修 改 感 兴趣 。 假 设 可 以 获得 一 个 幻影 物体 ， 动 态 着 色 


灯 [Bandyopadhyay et al. 2001] 可 以 让 用 户 用 投影 光 在 真实 物体 上 绘图 ( 见 图 9.6 )。 起 初 物 
体 具 有 空 的 透明 纹理 。 每 当 用 户 运 用 “着 色 ” 时 刷 头 被 转换 成 幻影 物体 的 局 部 纹理 坐标 。 相 
关联 的 纹理 在 所 确定 的 坐标 处 填充 颜色 。 因 为 投影 信息 被 限制 在 物理 表面 上 ， 彩 色 纹 理 的 投 
影 与 用 户 当 前 的 视角 无 天 





图 9.6 用 户 在 画布 (前景 ) 和 玩具 房间 (背景 ) 上 利用 投影 光 绘 图 (由 Michael Marner 提供 ) 


Grasset 等 人 [2005] 展现 了 如 何 使 用 视频 透视 式 显 示 需 实现 的 类 似 方法 ( 见 图 9.7 ) 





图 9.7 a) 佩戴 头 戴 式 显 示 货 的 用 户 利用 被 跟 足 的 刷子 在 实物 上 涂 色 。b) 透 过 增强 现实 
显示 希 看 到 的 样式 应 用 程序 的 视图 (由 Raphael Grasset 提供 ) 


增强 现实 喷枪 技术 [Marner et al. 2009] 通过 用 申 筋 代 蔡 刷子 扩展 了 这 一 想法 。 用 户 手 持 
的 喷枪 距离 表面 越 和 还 ， 涂 漆 区 域 就 越 宽 。 通 过 在 非 惯 用 手中 使 用 模具 ， 用 户 可 以 控制 涂料 颗 
粒 在 表面 上 的 沉积 ( 见 图 9.8 )。 与 丰 正 的 蜡 枪 一 样 ， 受过 训练 的 艺术 家 可 以 同时 移动 噶 枪 和 
模具 来 创建 平滑 的 色彩 渐变 。 





图 9.8 增强 现实 空气 刷 允 许 用 户 使 用 喷枪 将 仿真 涂料 沉积 在 物体 表面 上 (由 Michael 
Marner 提供 ) 
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93 半自动 重建 


在 线 重 建 的 最 新 进展 使 得 用 户 可 以 同时 探索 环境 和 获取 几何 模型 。 快 速 处 理 需 [Newcombe 
et al. 2011b] 或 深度 传感器 [Newcombe et al. 2011a] 的 使 用 为 密集 重建 提供 了 可 能 性 。 

不 笠 的 是 ， 上 自动 重建 获取 的 模型 不 能 立即 适用 于 增强 现实 应 用 。 一 方面 ， 这 些 模 型 通常 
包含 不 必要 的 细节 ， 需 要 大 量 用 于 泻 染 和 物理 的 存储 和 处 理 能 力 。 另 一 方面 ， 它 们 缺乏 语义 
结构 或 意义 ， 因 此 难以 执行 选择 一 个 单独 物体 等 简单 的 语义 操作 。 

为 了 弥补 这 些 缺 点 ， 需 要 半自动 重建 方法 ， 其 中 在 线 重 建 方法 (通常 基于 SLAM) 提供 
了 用 于 情境 建 模 操作 的 数据 。 需 要 注意 的 是 ， 这 里 我 们 只 考虑 以 自我 为 中 心 的 增强 现实 接 
口 ， 而 不 是 使 用 扫 摘 几何 的 桌面 CAD。 我 们 从 仅 使 用 单 目 RGB 相机 的 SLAM 开始 。 

最 简单 的 方法 是 使 用 SLAM 算法 来 估计 场景 中 的 主 平面 。 这 些 平面 可 用 于 虚拟 物体 的 
注册 [Simon 2006] [Chekhlov et al. 2007] [Klein and Murray 2007] 或 改善 注册 绪 果 [Salas- 
Moreno et al. 2013]。 另 一 种 方法 是 检测 图 像 中 的 消 隐 点 ， 从 而 可 以 建立 支持 简单 物体 放置 
的 地 平面 和 房屋 主 方向 [Nóbrega and Correia 2012]. 

Bunnun 和 Mayol-Cuevas [2008] 描述 了 OutlinAR， 这 是 第 一 个 在 SLAM 映射 阶段 对 线 
框 几何 进行 建 模 的 系统 。Simon [2010] 通过 交替 建 模 和 映射 扩展 了 这 一 方法 。 这 种 分 离 使 得 
用 户 在 建 模 阶段 具有 更 大 的 相机 运动 目 由 度 。 

Van den Hengel 等 人 [2009] 描述 了 JIIM， 人 允许 用 户 从 SLAM 关键 帧 建 模 纹理 几何 〈 见 
图 9.4 )。JIIM 同样 使 用 了 分 离 的 映射 和 建 模 阶段 。 在 建 模 过 程 中 ， 系 统 将 关键 帧 呈现 为 平 
板 电脑 的 静态 图 像 ， 用 户 在 关键 帧 之 上 绘制 多 边 形 轮廓 。 根 据 SLAM 图 中 估计 的 三 维 信息 
将 多 边 形 目 动 放置 在 底层 物理 表面 的 深 处 。 

Pan 等 人 [2009] 描述 了 ProFORMA 一 一 一 种 半 目 动 重建 小 型 手持 对 象 的 几何 形状 和 外 
观 的 方法 。 他 们 使 用 固定 摄像 机 ， 并 要 求 用 户 转 动 摄像 机 前 面 的 对 象 。 对 于 对 象 的 每 个 新 视 
图 ， 使 用 背景 差分 来 确定 物体 轮廓 ， 并 且 使 用 概率 空间 雕刻 来 修剪 四 面体 体积 直到 建 模 完 
成 。 该 系统 还 具有 指导 用 户 如 何 最 好 地 完成 建 模 过 程 的 情境 可 视 化 特点 ( 见 图 9.9 )。 





a) b) 
图 9.9 ProFORMA 逐步 捕获 在 固定 相机 前 转动 的 物体 的 表面 。 系 统 通过 显示 方 回 箭头 


(a) 和 指示 不 完整 的 表面 (b) 来 指导 用 户 执行 下 一 个 步骤 。 由 Qi Pan 和 Gerhard 
Reitmayr 提供 


Bastian 等 人 [2010] 也 专注 于 重建 小 物体 ， 但 让 用 户 围 绕 物 体 移 动 ， 而 不 是 要 求 相机 保 
持 静 止 。 在 基于 用 户 输入 从 第 一 幅 关 键 帧 中 分 割 物体 之 后 ,通过 图 像 序 列 跟 踊 物 体 轮廓 ， 并 
利用 空间 雕刻 来 提取 。 
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o Wither 等 人 [2008] 表明 即使 是 单 点 激光 测 距 仪 ( 见 图 9.10) 也 足以 获取 室外 环境 几何 ， 
与 大 多 数 仅 在 室内 短 距 离 工 作 的 结构 光 传 感 希 不 同 ， 激 光 测 距 仪 可 以 实现 远 距 离 测 量 。 如 果 
它 蜀 性 地 注册 到 摄像 机 视频 上 ， 则 可 以 使 用 距离 测量 来 初始 化 基于 图 像 的 分 割 。 对 于 复杂 的 
前 景物 体 ， 这 一 操作 可 以 重复 多 次 。 在 互补 方法 中 ， 在 图 像 空 间 的 扩展 插值 深度 值 会 产生 粗 
糙 的 环境 深度 图 ， 这 一 深度 图 可 用 于 放置 个 加 物体 并 泻 染 正确 的 谈 挡 .。 
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图 9.10 a) 连接 到 头 戴 式 显示 上 需 的 单 点 激光 测 距 仪 。b) 基于 利用 激光 测 距 仪 进行 测量 
初始 化 的 图 荐 对 前 景物 体 的 部 分 分 割 。c) 使 用 前 景 分 割 计 算 的 虚拟 雕像 让 挡 
(由 Jason Wither 提供 ) 


Nguyen 等 人 [2013] 展示 了 一 个 类 似 的 室内 重建 设置 。 其 中 激光 测 距 仪 的 稀 朴 输入 用 来 识别 墙 
壁 等 平面 结构 并 定义 其 拓扑 关系 。 一 个 推理 实体 几何 方法 将 该 信息 合并 在 房间 结构 的 体 模型 中 。 

如 果 具 有 足够 的 几何 信息 ， 基 于 计算 分 析 的 场景 理解 可 以 用 作文 持 建 模 的 附加 工具 。 场 
景 理解 通常 依赖 于 统计 方法 和 机 器 学 习 ， 这 需要 大 量 的 数据 集 。 因 此 大 多 数 场 景 理解 方法 
使 用 离线 重建 ， 然 后 进行 几何 的 自动 分 割 和 分 类 。 实 时 的 场景 理解 正 逐 渐变 得 可 行 ， 因 此 将 
来 可 能 适用 于 增强 现实 。 例 如 ，SLAM++ [Salas-Moreno et al. 2013] 检测 已 知 物体 的 实例 并 
构建 一 个 包含 完整 物体 的 SLAM 上 映射。 语义 绘图 [Valentin et al. 2015] 允许 用 户 使 用 RGB-D 
相机 扫 摘 室内 环境 ， 同 时 通过 简单 的 触摸 手 执 分割 场景 。 语 义 画 笔 [Miksik et al. 2015] 允许 
在 室外 使 用 被 动 立体 视觉 和 用 激光 指示 霸 进 行 交 互 的 循环 手势 来 实现 类 似 的 功能 。 在 这 两 种 
情况 下 ， 使 用 条 件 随 机 场 模 型 的 动态 机 上 需 学 习 过 程 不 断 地 分 析 这 些 在 线 分 割 结 果 并 相应 地 标 
记 环 境 中 新 的 不 可 见 部 分 。 

Nguyen 等 人 [2015] 描述 了 一 种 用 于 结构 建 模 的 系统 ， 通 过 来 自 RGB-D 的 SLAM 信息 
计算 具有 较 少 多 边 形 数量 的 高 级 几何 。 该 系统 提取 平面 并 分 析 平 面 边界 的 几何 形状 和 平面 到 
平面 的 关系 ,包括 人 射 和 正 交 性 〈 见 图 9.11 )。 





a) b) c) 
图 9.11 a) 来 日 RGBD 传感器 的 简单 场景 视图 。b) 利用 深度 图 像 分 割 的 平面 。c) 几何 
场景 理解 检测 的 直线 边 绿 (如 黄 线 所 示 ) 和 平行 平面 (以 相同 的 颜色 显示 ) (由 
Thanh Nguyen 提供 ， 见 彩 捅 ) 
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94 自由 曲面 建 模 


形状 和 外 观 的 传统 设计 方法 通常 涉及 从 诸如 黏土 、 木 材 或 纸张 等 可 延展 材料 中 制造 物理 
模型 和 原型 。 增 强 现实 可 以 通过 将 数字 设计 工具 与 物理 对 象 相 结合 来 加 强 设 计 过 程 。 这 个 应 
用 领域 的 重点 在 于 创造 性 的 表达 上 自 由， 而 不 是 精确 的 几何 输入 。 

例如 ， 空 间 设 计 [Fiorentino et al. 2002] 让 用 户 在 空间 中 绘制 曲线 并 将 自由 曲面 拟 合 为 
曲线 阵列 。 模 型 设计 等 物体 可 以 作为 参考 。 另 一 种 用 于 体 的 自由 曲面 建 模 的 直观 方法 是 使 用 


仿真 泡沫 颗粒 喷雾 [Jung et al. 2004]。 然 而 设计 师 可 能 更 喜欢 雕刻 或 素描 等 已 有 的 艺术 技巧 。 
例如 ， 工 业 设 计 者 使 用 泡沫 切割 作为 快速 成 型 工具 。 该 过 程 用 热线 切割 机 切割 一 块 泡沫 直到 


它 呈 现 所 需 的 形状 。Marner 和 Thomas [2010] 跟踪 工件 和 刀具 并 仿真 对 工件 形状 所 做 的 更 改 
( 见 图 9.12) 以 确定 与 该 工件 相对 应 的 模具 。 他 们 使 用 投影 仪 来 为 部 件 增加 附加 信息 ， 包 括 
已 经 应 用 切割 的 动画 、 工 件 的 内 部 结构 或 目标 形状 。 





图 9.12 跟踪 的 热线 切割 器 用 于 同时 切 制 物理 泡沫 片 以 及 数字 地 计算 用 于 投影 仪 增强 的 
对 应 三 维 形状 (由 Michael Marner 提供 ) 


泡沫 切 制 的 缺点 是 必须 具有 能 够 在 物理 意义 上 产生 的 形状 。 相 比 之 下 ，AR-Jig [Anabuki 
and Ishii 2007] 允许 用 户 通过 跟踪 的 针 状 阵列 输入 二 维 曲 线 〈 见 图 9.13 )。 该 针 状 阵列 可 以 被 
物理 地 操纵 来 表示 所 需 的 曲线 ， 例 如 通过 将 其 按压 在 物理 表面 上 。 利 用 曲线 形 工 具 ， 用 户 可 
以 雕刻 虚拟 体 或 使 物体 表面 变形 来 匹配 曲线 


= 
-ee 
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真实 虚拟 
a) b) 
图 9.13 a) AR-Jig 可 以 捕获 真实 物体 的 曲线 。b) 捕获 的 曲线 可 用 于 虚拟 工件 上 的 空间 


雕刻 


AR 还 可 以 支持 更 高 阶 结构 的 几何 建 模 ， 例 如 学 习 数 学 [Kaufmann et al. 2000]。 佩 戴 头 


戴 式 显示 恬 的 学 生 可 以 创建 形 如 旋转 表面 的 交 又 曲线 的 高 级 数学 结构 ， 并 使 用 简单 的 约束 建 
模 技术 来 交互 式 地 修改 其 参数 ( 见 图 9.14 )。 





a) 


图 9.14 Construct3D 允许 对 高 阶 曲 面 的 自由 曲面 建 模 ， 如 圆锥 曲线 的 交 义 (由 Hannes 
Kaufmann 提供 ) 


9.5 ”注释 


正如 我 们 所 看 到 的 ， 许 多 引人入胜 的 增强 现实 应 用 程序 处 理 几 何 或 外 观 ， 但 更 大 的 潜 
力 存 在 于 通过 不 同 种 类 的 注释 将 丰富 的 抽象 信息 与 我 们 世界 中 的 物体 相关 联 [Wither et al. 
2009]， 这 有 助 于 用 户 更 好 地 理解 和 记 亿 他 们 的 环境 [Starner et al. 1997]。 与 其 他 用 户 共 享 注 
释 是 社交 计算 的 关键 要 求 。 当 今 的 商业 增强 现实 训 览 句 已 经 允许 用 户 贡 献 简 单 的 地 理 参考 内 
容 ， 如 文本 注释 等 。 这 个 概念 已 经 被 Rekimoto [1998] 等 冠 以 “增强 现实 ”的 品牌 。 一 旦 识 
别 出 用 户 视 野 范 围 内 的 物体 ， 则 会 为 用 户 提 供 相 关联 的 信息 (如 文本 图 片 或 音频 剪辑 等 ) 以 
引起 注意 。 用 户 不 仅仅 是 纯粹 地 被 动 消 费 注释 ， 而 是 可 以 根据 需要 提供 新 的 信息 一 一 这 一 术 
语 称 作 “ 可 增强 ”。 通 过 在 由 位 置 索 引 的 服务 大 上 存储 新 的 注释 ， 这 种 信息 共享 变 成 了 协作 
工种 

在 现实 世界 中 ， 我 们 不 能 假设 已 经 获得 为 注释 考虑 的 物体 跟踪 模型 。 因 此 ， 在 将 注释 放 
在 物体 上 之 前 ， 我 们 必须 进行 物体 三 维 重建 ， 或 者 至 少 获得 基于 图 像 的 表示 ， 这 样 可 以 在 稍 
后 可 徘 地 检测 被 注释 的 物体 或 位 置 。 这 种 信息 可 以 用 SLAM 技术 获得 ， 类 似 于 前 面 描述 的 
半 目 动 重建 方法 。 增 强 现 实 系统 捕获 环境 ,用户 以 注释 的 形式 添加 补充 信息 。 

在 室内 环境 中 ， 通 过 传统 的 SLAM 算法 获得 的 稀 玻 地 图 可 以 直接 用 于 注释 的 注册 。 
Reitmayr 等 人 [2007] 描述 了 一 种 方法 ， 由 用 户 选 择 环境 中 已 有 的 几何 特征 (方块 、 圆 盘 ) 
并 让 系统 跟踪 这 些 特 征 ( 见 图 9.15 ) 。 特 征 的 自动 估计 可 以 减轻 用 户 手动 指定 注释 表面 几 
何 的 负担 。 

通常 ， 三 维 注释 可 以 方便 地 通过 二 维 方式 创作 ; 例如 ， 在 视频 透视 式 增 强 现实 平板 电脑 
上 的 二 维 草图 上 进行 增强 现实 注释 的 情况 下 ， 可 以 通过 绘制 箭头 或 通过 在 观看 平面 上 旋转 物 
体 或 其 部 件 来 进行 突出 显示 [Gauglitz et al. 2014b]。 在 图 像 或 物体 空间 中 的 手势 增强 注释 说 
明和 半 目 动物 体 分 割 (例如 通过 SLAM 获取 ) 可 以 消除 二 维 输入 的 歧义 并 将 其 应 用 于 三 维 场 
景 ， 以 从 不 同 的 视角 进行 正确 的 说 明 [Nuernberger et al. 2016]。 

Kim 等 人 [2007] 开发 了 一 套 室外 系统 ， 可 以 让 用 户 在 开放 环境 中 的 建筑 物 上 生成 注 
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释 。 在 通过 航空 图 像 中 的 位 置 以 及 移动 传感器 信息 (GPS, PRU IMU) 建立 用 户 相 对 
于 建筑 物 角 落 的 当前 位 置 之 后 ， 逐 步 跟 踪 建 筑 物 ， 并 且 用 户 可 以 在 图 像 上 放置 所 需 的 注释 
( 见 图 9.16 ). 





图 9.15 半 目 动 注释 允许 用 户 将 指导 维护 操作 的 方向 稍 头 等 指令 直接 附加 到 SLAM 地 
图 的 特征 上 (由 Gerhard Reitmayr、Ethan Eade 和 Tom Drummond 提供 ) 


Steve 的 房间 = | Jason MRA 





图 9.16 跟踪 建筑 物 角 落 时 附加 的 实时 注释 (由 Sehwan Kim 提供 ) 


可 以 通过 组 合 移动 传感器 和 全 景 SLAM 算法 来 构建 一 个 将 户外 注释 放置 在 任何 位 置 的 
强大 和 可 扩展 的 系统 [Wagner et al. 2010]。 在 拍摄 全 景 图 期 间或 之 后 ， 用 户 可 以 选择 环境 中 
的 兴趣 点 并 用 文本 或 音频 剪辑 进行 注释 [Langlotz et al. 2013]。 人 全景 图 和 注释 位 置 存 储 在 由 
GPS 坐标 索引 的 服务 器 上 。 当 另 一 个 用 户 想 要 浏览 注释 时 ， 通 过 图 像 与 先前 获得 的 传感器 信 
县 (例如 ， 指 南 针 方 向 ) 的 鲁 棒 匹 配 [Langlotz et al. 2011] 构建 一 个 新 的 全 景 图 并 将 其 与 存储 
在 服务 各 上 的 近邻 全 景 图 数据 集 进行 比较 ( 见 图 9.17 )。 

使 用 粗略 位 置 和 全 景 图 的 组 合 来 组 织 注释 的 动机 不 需要 环境 的 先 验 知识 ， 并 且 所 有 计算 
部 是 非常 轻 量 级 的 。 如 果 可 以 获得 三 维 城市 模型 ， 全 景 图 可 以 作为 超 广角 图 像 ， 用 于 基于 图 
像 的 城市 模型 匹配 [Arth et al. 2011]。 在 这 样 的 扩展 框架 中 ， 也 可 以 使 用 存储 在 绝对 全 局 坐 
标 中 的 注释 . 
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实时 全 景 图 
图 9.17 在 环绕 全 景 图 中 浏览 注释 首先 ， 用 户 使 用 移动 客户 端 设 备 映 射 部 分 全 景 图 。 
其 次 ， 移 动 客户 端 根据 当前 的 GPS 位 置 检索 兴趣 点 。 第 三 ， 在 全 景 图 中 检测 
兴趣 上 后 ， 使 用 罗盘 作为 主动 搜索 的 先 验 
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建 模 是 增强 现实 交互 不 可 或 缺 的 部 分 。 使 用 移动 界面 进行 建 模具 有 令 人 着 迷 的 特性 ， 可 
以 将 虚拟 图 像 和 真实 图 像 的 形状 和 外 观 并 排 进行 比较 ， 特 别 是 在 重新 创建 现 有 的 物理 结构 时 。 
然而 不 可 避免 地 ， 移 动 设 备 有 限 的 交互 能 力 使 得 精确 的 空间 输入 比 在 桌面 设置 下 更 加 困难 。 
因此 已 经 开发 了 各 种 技术 来 帮助 用 户 指定 几何 输入 。 这 些 输入 技术 通常 需要 高 精度 跟踪 ， 而 
目 由 曲面 和 注释 技术 可 以 在 更 宽松 的 需求 下 工作 (但 仅仅 因为 它们 没有 提供 类 似 的 精度 )。 如 
末 社 会 增强 现实 成 为 主流 的 媒体 ， 则 注释 将 成 为 终端 用 户 建 模 的 一 个 特别 重要 的 概念 。 
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建 模 处 理 几 何 形 状 与 外 观 ， 程序 开发 关注 语义 与 应 用 行为 的 定义 。 如 今 这 一 行为 仍然 主 
要 发 生 在 源 代码 级 别 。 作 为 增强 现实 唯一 开发 方法 的 编程 限制 了 开发 人 员 的 生产 力 与 非 编 程 
人 员 的 参与 性 ， 包 括 作 家 、 设 计 师 以 及 艺术 家 等 在 增强 现实 应 用 开发 中 的 积极 作用 。 这 可 外 
会 影 啊 增 强 现 实 成 为 主流 媒体 的 步伐 。 本 章 中 ,我们 针对 改善 这 一 现状 开展 研究 。 

当 增 强 现实 被 看 作 是 一 种 新 媒体 而 不 是 新 技术 时 [MacIntyre et al. 2001]， 正 确 地 人 处理 其 
内 容 是 最 重要 的 。Hampshire 等 人 [2006] 比较 了 增强 现实 中 的 程序 设计 架构 与 内 容 设 计 架 构 。 
像 ARToolKit [Kato and Billinghurst 1999] 这 样 的 底层 程序 设计 架构 实现 的 是 跟踪 等 基础 的 
增强 现实 功能 。 与 之 相对 ， 场 景 图 这 样 的 高 级 程序 设计 架构 为 增强 现实 应 用 的 通用 概念 提供 
了 构建 模块 。 在 高 级 架构 中 ，Studierstube [Schmalstieg et al. 2002] 4 DWARF [Bauer et al. 
2001] 这 样 的 研究 架构 以 及 Vuforia (http://www.vuforia.com) 这 样 的 商业 架构 都 是 典型 的 通过 
面向 对 象 语言 实现 的 。 

与 第 14 章 所 讨论 的 编程 框架 不 同 ， 本 和 曹 将 讨论 针对 增强 现实 应 用 内 容 创 作 的 设计 框架 。 
一 个 内 容 适 合 的 增强 现实 应 用 可 以 实现 很 多 目的 。 最 为 人 们 所 熟知 的 内 容 驱动 应 用 是 计算 
机 游戏 ; 确实 ， 增 强 现 实 游戏 是 内 容 驱 动 增强 现实 的 重要 应 用 和 案例。 然而， 仍然 存在 很 多 
更 加 引 人 注 目的 应 用 案例， 包括 如 图 10.1 所 示 的 文化 教育 领域 [Ledermann and Schmalstieg 
2003] 以 及 如 图 10.2 所 示 的 装配 指导 领域 。 





图 10.1 Heidentor ( 异 教徒 之 门 ) 是 一 处 公元 4 世纪 的 罗马 废墟 ， 位 于 奥地利 东部 。 本 
图 示 出 一 个 利用 多 媒体 信息 进行 增强 的 缩放 模型 。 用 户 通过 红色 射线 选择 了 中 
闻 部 分 ， 因 此 弹出 一 幅 历 史 照 片 (由 Florian Ledermann 提供 ， 见 彩 捅 ) 





图 10.2 ”通过 增强 现实 指导 可 以 帮助 自己 动手 装配 家 具 。 本 图 中 椅子 劳 边 显 示 的 一 个 虚 
拟 模 型 用 来 指导 用 户 执 行 下 一 个 步骤 (由 Florian Ledermann 提供 ) 


10.1 增强 现实 开发 的 需求 
内 容 的 创造 需要 理解 增强 现实 的 独特 特点 。 一 个 成 功 的 增强 现实 开发 解决 方案 必须 为 一 
个 已 经 存在 的 增强 现实 应 用 框架 提供 更 具 吸 引力 的 图 形 用 尸 窜 面 。 


10.1.1 真实 世界 界面 

增强 现实 设置 与 其 他 媒体 的 根本 不 同 来 自 应 用 空间 中 用 户 感 知 的 真实 世界 的 存在 一 一 当 
构造 应 用 空间 与 交互 时 ， 我 们 必须 考虑 的 一 个 特点 。 此 外 ， 世 界 不 仅 是 一 个 应 用 内 容 的 被 动 
容器 ; 真实 世界 中 的 对 象 (例如 需要 装配 的 家 具 、 真 实 世界 中 的 工具 等 ) 都 是 应 用 用 户 界 面 
的 一 部 分 。 在 我 们 的 概念 性 模型 上 ， 我 们 必须 考虑 将 应 用 内 容 与 真实 世界 相关 的 不 同 可 能 
性 。 举 例 来 说 ， 尽 管事 实 上 并 不 会 对 物理 元 素 进 行 图 形 泻 染 ， 但 是 它们 经 常 必须 作为 应 用 对 
象 进行 建 模 。 

10.1.2 ”硬件 抽象 

增强 现实 的 一 个 基本 问题 是 硬件 的 配置 、 装 备 以 及 交互 技术 的 异 质 性 ， 通 常 无 法 实现 
“编写 一 次 ， 随 处 运行 ”或 是 开发 标准 交互 工具 包 。 我 们 需要 制定 一 个 针对 硬件 抽象 与 交 
互 概念 的 战略 ， 能 够 直接 应 用 于 多 种 输入 设备 中 。 这 些 抽象 内 容 的 应 用 可 提高 应 用 程序 的 
可 移植 性 ， 使 得 这 些 应 用 程序 能 够 在 台式 工作 站 以 及 其 他 的 一 些 测试 环境 中 进行 开发 ， 以 此 
来 代替 稀缺 或 昂贵 的 目标 增强 现实 系统 。 

一 个 重要 的 需求 是 这 一 框架 应 当 能 够 支持 输入 与 输出 外 围 设备 的 多 种 可 能 组 合 。 在 使 用 
移动 设备 的 某 些 案例 中 ,在 台式 计算 机 上 开发 应 用 ， 在 目标 系统 中 只 进行 评估 、 微 调 以 及 最 
终 部 署 要 方便 得 多 。 应 用 程序 及 其 组 件 应 在 不 同 的 配置 下 被 重复 利用 ， 为 一 个 系统 开发 的 应 
用 程序 应 当 能 够 在 进行 很 少 的 修改 或 者 不 修改 的 情况 下 在 其 他 设备 上 运行 。 例 如 ， 一 个 应 用 
程序 应 当 能 够 被 配置 为 同时 在 基于 家 用 计算 机 的 网 络 摄像 头 以 及 被 跟踪 的 透视 式 头 戴 显 示 设 
备 上 运行 。 

当然 ,平台 的 不 兼容 问题 并 不 是 增强 现实 独 有 的 ， 这 与 移动 应 用 程序 不 能 在 某 款 特定 的 
手机 上 运行 的 常见 问题 一 样 。 即 使 硬件 抽象 使 得 应 用 程序 可 以 在 另外 的 设备 上 被 再 次 使 用 ， 


If 发 219 


但 这 可 能 导致 严重 的 易 用 性 问题 。 例 如 ， 一 个 为 高 分 辨 率 屏 幕 的 智能 手机 设计 的 交互 系统 可 
能 并 不 适用 于 头 戴 式 显示 设备 。 尽 管 存在 这 些 限 制 ， 一 个 好 的 抽象 层 通常 是 合理 的 ， 因 为 它 
可 以 显著 地 缓解 跨 平台 的 工程 问题 。 


10.1.3 ”开发 流程 


开发 可 以 利用 已 有 的 工具 和 标准 ， 通 过 集成 这 些 工具 为 一 致 的 工作 流程 来 提供 界面 。 在 
增强 现实 开发 过 程 中 ， 应 该 为 内 容 创造 者 与 领域 专家 提供 专业 的 工具 ， 从 而 不 需要 在 这 些 领 
域 中 重新 实施 成 功 的 解决 方案 。 

例如 ,假设 已 经 存在 针对 特殊 应 用 的 编程 构件 模块 ， 此 时 开发 过 程 包 含 三 个 主要 步骤 。 
首先 ， 我 们 必须 创造 多 媒体 资产 。 其 次 ,我 们 必须 连接 虚拟 与 真实 实体 一 一 例如 ， 为 目标 物 
体 指定 三 维 模型 。 再 次 ， 我 们 必须 通过 说 明 用 户 与 环境 中 的 物体 进行 交互 时 将 会 发 生 何 种 事 
件 来 定义 实体 行为 。 我 们 不 考虑 针对 真实 世界 的 准备 工作 ， 例 如 创造 适合 的 真实 物品 ， 因 为 
这 一 步骤 不 能 被 数字 技术 所 获得 ， 而 是 需要 使 用 舞台 设计 等 传统 的 手工 技艺 。 

显然 ， 这 样 的 开发 系统 不 能 单独 存在 ， 而 是 需要 一 个 实时 引擎 来 执行 应 用 程序 并 呈现 其 
内 容 。 尤 其 ， 实 时 引擎 必须 允许 我 们 控制 内 容 创造 的 时 空 。 

为 了 保障 协同 工作 流程 以 及 未 来 的 复 用 ， 将 应 用 模块 化 十 分 必要 。 这 不 仅 适 用 于 应 用 内 
容 的 个 性 化 部 分 ， 同 样 适用 于 应 用 的 抽象 部 分 ， 包 括 故 事 板 、 交 互 说 明 以 及 硬件 描述 等 。 

本 章 首先 介绍 增强 现实 开发 所 涉及 的 要 素 。 其 次 ， 我 们 说 明 如 何 将 这 些 要 素 整 合成 为 独 
立 的 开发 解决 方案 。 接 下 来 的 章节 介绍 现代 开发 方法 ， 这 些 方法 并 不 总 是 独立 的 解决 方案 ， 
而 是 使 用 插件 方法 或 网 络 技术 。 


10.2 FREER 


伴随 应 用 程序 的 两 个 基本 维度 是 时 间 组 织 与 空间 组 织 ， 其 中 时 间 组 织 决定 了 随时 间 变 化 
应 用 中 对 象 的 可 视 性 以 及 行为 ， 空 间 组 织 决定 了 观看 者 看 到 的 这 些 对 象 的 位 置 与 大 小 。 这 样 
一 个 整体 结构 与 传统 的 计算 机 动画 软件 相似 。 与 此 同时 , 还 需要 一 些 特殊 的 考虑 使 得 这 种 方 
法 能 够 在 增强 现实 应 用 中 工作 (LE 10.3 )。 





图 10.3 ”增强 现实 开发 可 以 通过 剧场 隐喻 描述 。 基 于 输入 与 输出 设置 的 定义 ， 开 发 可 以 
定义 为 一 个 故事 (应 用 逻辑 )， 由 交互 和 舞台 上 的 影响 角色 驱动 
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10.2.1 角色 


我 们 将 组 成 一 个 应 用 内 容 的 对 象 称 为 角色 。 一 个 角色 可 以 具有 几何 表示 ， 例 如 一 个 与 用 
户 进行 交互 的 对 象 、 一 段 声 音 、 一 段 视 频 剪 辑 ， 甚 至 是 一 些 可 以 控制 其 他 角色 行为 的 抽象 实 
体 等 。 如 果 角 色 可 以 舱 套 将 会 十 分 有 用 ， 这 样 一 个 角色 可 以 立刻 控制 整个 小 组 的 其 他 角色 。 
如 果 和 角色 可 以 通过 定时 事件 或 用 户 输入 被 改变 ， 那么 每 个 角色 应 该 是 一 个 组 件 (因此 ， 和 角色 
阵容 可 以 通过 添加 新 组 件 进 行 扩 大 ) 的 实例 和 能 够 确定 其 行为 属性 的 集合 。 


10.2.2 ”故事 


在 计算 机 动画 中 ， 往 往 存在 一 个 事件 的 时 间 顺 序 ， 通 常 被 表示 为 时 间 轴 。 相 比 之 下 ， 交 
互 式 应 用 程序 不 需要 遵循 时 间 顺 序 。 在 任意 给 定 的 时 刻 会 有 一 个 当前 的 场景 ， 该 场景 决定 了 
哪些 角色 是 可 见 的 并 能 与 之 交互 。 在 满足 一 定 条 件 时 ， 系 统 将 切换 到 男 一 场景 。 这 种 展开 的 
事件 与 场景 可 以 看 作 一 个 非 线性 的 故事 。 它 可 以 被 正式 地 表示 为 一 个 有 限 状 态 机 ， 即 当前 的 
场景 等 效 于 当前 的 激活 状态 。 在 进入 、 执 行 以 及 离开 场景 时 ， 角色 的 属性 将 被 设置 或 激活 -。 
分 层 控 制 也 是 一 种 连接 一 个 角色 和 为 一 个 角色 属性 的 常见 方式 。 


10.2.3 #8 


增强 现实 应 用 中 角色 的 空间 组 织 不 同 于 虚拟 现实 中 已 有 的 方法 。 在 虚拟 现实 应 用 中 ， 通 
常 为 所 有 用 户 泻 染 一 个 单一 场景 。 与 之 相对 ， 增 强 现实 系统 的 特定 优势 之 一 就 是 它们 可 以 为 
多 用 户 提 供 观 察 世 界 的 不 同 视角 。 即 使 是 单 用 户 增强 现实 系统 ， 同 样 可 能 会 有 一 些 同 时 被 看 
到 的 “现实 ”: 真实 世界 及 其 对 应 的 通过 计算 机 生成 的 已 注册 又 加 物 、 平 视 显 示 咒 或 交互 面 
板 等 用 户 界面 元 素 、 用 于 导航 的 缩 略 世界 [Stoakley et al. 1995]、 场 景 泻 染 的 二 维 纹理 等 作 
为 信息 显示 。 

为 支持 这 一 空间 的 多 样 性 ， 增 强 现 实 环境 可 以 被 细 分 为 称 为 三 台 的 空间 单元 。 如 果 开 发 
者 不 仅 能 够 定义 每 一 状态 相对 于 世界 坐标 系 以 及 其 他 舞台 的 空间 关系 ， 同 时 能 够 明确 所 使 用 
的 泻 染 技术 (例如 ， 三 维 或 平面 上 的 纹理 )， 并 与 某 些 物理 显示 (例如 ， 为 特定 用 户 提供 “ 私 
人 ”内 容 ) 相 协 调 ， 则 将 带 来 很 大 的 便利 性 。 


10.2.4 ”交互 


定义 一 个 交互 行为 的 最 简便 方法 是 让 用 户 控 制 角 色 的 属性 ， 为 此 必须 明确 直接 操作 (使 
用 指 回 设备 、 标 识 或 其 他 方式 ) 或 合适 的 虚拟 用 户 界 面 元 素 。 同 样 ， 用 户 应 该 能 够 通过 用 户 
界面 元 素 触 发 场景 之 间 的 转换 ， 如 按钮 或 通过 接近 一 个 角色 。 为 了 方便 起 见 ， 应 该 通过 图 形 
用 户 界面 对 基本 的 交互 进行 测试 。 更 高 级 的 交互 操作 通常 通过 Python C# 以 及 JavaScript 
等 脚本 语言 实现 。 


10.25 设置 


增强 现实 应 用 开发 的 灵活 性 要 求 在 各 方面 与 应 用 内 容 分 离 ， 这 取决 于 应 用 所 运行 的 实际 
系统 。5 引 入 特定 的 硬件 摘 述 能 够 提供 一 个 抽象 层 ， 为 用 户 隐 藏 底层 硬件 细节 。 使 用 不 同 的 硬 
件 摘 述 ， 应 用 程序 可 以 在 不 改变 其 内 容 的 条 件 下 运行 在 不 同 的 硬件 设置 。 

标定 或 网 络 参 数 等 硬件 规格 可 以 使 用 一 个 已 有 的 设备 抽象 软件 架构 进行 配置 ， 如 
OpenTracker [Reitmayr and Schmalstieg 2001], VRPN [Taylor et al.2001]。 从 硬件 相关 层 到 
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应 用 程序 的 映射 必须 能 够 充分 表达 以 允许 应 用 程序 充分 利用 跟踪 装置 或 显示 器 等 硬件 的 特 
性 。 为 实现 这 一 目标 所 使 用 的 一 般 原 则 是 枚 举 所 有 的 硬件 特性 ， 如 计算 机 、 显 示 器 、 指 针 以 
及 交互 设备 等 ， 并 通过 关键 词 说 明 使 用 的 语义 (如 头 部 跟踪 与 手 部 跟踪 ) 。 应 用 程序 可 以 通 
过 明确 兼容 关键 词 间 接 指 定 硬 件 资源 。 


10.3 独立 开发 方法 


本 市 介绍 一 些 广为人知 的 增强 现实 开发 系统 的 例子 ， 同 时 检视 它们 是 如 何 解 决 上 文 概 
述 的 设计 考量 的 。 我 们 首先 关注 使 用 传统 桌面 交互 进行 增强 现实 开发 的 解决 方案 。 一 个 桌 
面 方法 具有 可 以 利用 已 有 果 面 交互 技术 的 优点 ,但 是 不 能 充分 发 挥 增强 现实 的 沉浸 特性 。 
因此 ,我 们 给 出 一 些 直接 用 于 开发 增强 现实 界面 的 更 具 实验 性 的 实例 ， 我 们 称 之 为 面向 性 
能 的 开发 。 


10.3.1 桌面 开发 


如 采 一 个 简单 的 线性 表示 足够 , 则 幻灯 片 隐 喻 可 能 是 合适 的 。 例 如 ，PowerSpace 
[Haringer and Regenbrecht 2002] 则 在 将 指令 序列 呈现 为 真实 场景 的 增强 现实 注释 一 一 例 
如 在 汽车 工业 中 。 它 依靠 传统 的 幻灯 片 编辑 器 (Microsoft PowerPoint) 来 快速 地 生成 增强 
现实 的 内 容 。 在 物理 环境 快照 之 上 与 增强 现实 角色 对 应 的 图 形 要 素 布局 是 在 二 维 幻 灯 片 编 
辑 硕 上 交互 完成 的 。 其 结果 被 导出 为 一 个 三 维 对 象 格 式 并 进一步 由 PowerSpace 编辑 器 进 
行 细 化 ， 它 允许 对 角色 的 空间 布置 进行 调整 以 及 导入 三 维 模型 。 很 明显 ，PowerSpace A 
统 受 PowerPoint 和 线性 约 灯 片 放 映 的 限制 ， 不 适用 于 不 同 舞 台 或 非 线性 叙事 。 即 便 如 此 ， 
PowerSpace 可 以 利用 人 们 编辑 幻灯 片 的 能 力 来 实现 简单 的 增强 现实 系统 ， 并 在 很 大 程度 上 
提高 效率 。 

哥伦比亚 大 学 开发 了 应 用 于 移动 增强 现实 系统 (MARS) 的 情境 纪实 (Situated 
Documentaries) 应 用 程序 。 情 境 纪实 是 叙事 型 的 超 媒 体系 统 ， 由 多 种 多 媒体 元 素 组 成 ， 包 括 
文本 、 视 频 、 音 频 剪辑 以 及 注册 在 环境 上 的 三 维 模型 等 。 这 些 元 素 被 绑 定 在 室外 环境 的 对 应 
位 置 ， 佩戴 MARS 的 用 户 在 环境 中 漫游 时 可 以 进行 浏览 。 研 究 人 员 为 情境 纪实 [Höllerer et 
al. 1999a] 开发 了 一 个 自 定义 的 视觉 编辑 融 。 当 使 用 者 徘 近 一 个 特定 的 室外 位 置 时 ,情境 纪 
实 将 会 显示 与 地 理 位 置 配 准 的 内 容 ， 从 而 实现 了 舞台 概念 。 但 是 由 于 开发 使 用 了 桌面 仿真 ， 
因此 开发 者 不 需要 到 真实 地 点 通过 操控 来 配 准 物体 。 后 续 的 室内 /室外 协作 系统 增加 了 一 个 
室内 增强 现实 界面 作为 放置 任务 的 开发 选项 ， 可 以 在 一 个 缩 略 世界 上 进行 操作 [Höllerer et 
al. 1999b]. 

AMIRE (混合 现实 开发 ) 是 一 个 从 组 件数 据 流 创 建 增强 现实 应 用 程序 的 框架 。AMIRE 
开发 回 导 可 以 创建 用 于 增强 现实 装配 指导 的 内 容 [Zauner et al. 2003]。 为 了 实现 这 一 目标 ， 
系统 允许 使 用 者 制定 单独 的 装配 步骤 并 明确 这 些 步 骤 之 间 的 关系 ， 从 而 形成 一 个 树 状 结构 。 
在 运行 时 ， 这 棵 树 将 被 线性 化 为 一 系列 循序 渐进 的 指令 。 

类 似 地 ， 基 于 模板 的 开发 方法 [Kn6pfle et al. 2005] 认为 开发 是 一 系列 循序 渐进 的 指示 。 
其 开发 人 员 特 别 考 虑 了 汽车 的 维修 步骤 ， 提 供 了 一 组 模板 来 创建 角色 以 及 与 这 些 步骤 的 交 
互 。 他 们 评估 使 用 20 ~ 30 个 模板 ， 在 给 定 范围 内 所 有 交互 的 95% 都 可 以 被 表示 。 模 板 的 
实例 创建 对 应 特定 工作 步骤 必须 的 全 体 角 色 和 交互 。 例 如 ,使 用 螺丝 刀 松 开 引 擎 的 部 件 将 涉 
及 物理 引擎 部 件 的 表示 、 一 个 虚拟 的 螺丝 刀 以 及 一 个 表示 螺丝 刀 旋 转 方向 的 动画 。 


增强 现实 表现 与 互动 语言 (APRIL) 是 一 个 用 于 创建 复杂 非 线性 增强 现实 体验 的 系统 ， 
该 系统 运行 于 Studierstube[Ledermann and Schmalstieg 2005] 之 上 。 它 表达 了 作为 共 发 性 分 
层 状态 机 [Beckhaus et al. 2004] 的 非 线 性 故事 。 这 一 选择 允许 一 个 通用 的 UML 状态 图 编辑 
器 转化 为 一 个 增强 现实 开发 工具 (OLA 10.4 )。APRIL 系统 能 够 支持 多 个 带 有 角色 的 舞台 以 
及 多 个 用 户 。 它 同时 还 通过 使 用 OpenTracker[Reitmayr and Schmalstieg 2005] 设备 库 提 供 了 
任意 交互 和 便 件 抽象 。 






get bored 


图 10.4 一 个 UML 状态 图 编辑 着， 显示 了 使 用 APRIL 框架 的 增强 现实 导 览 注释 状态 图 
的 一 部 分 (由 Florian Ledermann 提供 ) 


Mohr 等 人 [2015] 提出 了 一 个 将 目 动 指南 和 手册 等 印刷 文件 转换 为 三 维 增强 现实 的 系统 
( 见 图 10.5 )。 他 们 的 系统 识别 最 向 出 现在 印刷 文件 中 的 指令 形式 ， 如 装配 或 维修 的 图 像 序列 、 
焊 炸 图 、 文 本 注释 以 及 箭头 指示 运动 等 。 在 没有 或 者 只 有 很 少 的 用 户 输入 的 情况 下 ， 印 刷 文 
件 的 分 析 能 够 目 动 地 进行 。 该 系统 只 需要 文件 本 身 以 及 一 个 CAD 模型 ， 或 是 一 个 文件 中 描述 
的 物体 的 三 维 扫 摘 。 这 使 得 该 方法 非常 适用 于 仅 存 在 对 象 本 号 以 及 印刷 文件 的 遗产 类 型 物体 : 
系统 的 输出 是 一 个 完全 的 交互 式 增强 现实 应 用 ， 可 以 呈现 配 准 到 真实 物体 的 三 维 信息 。 





图 10.5 ”将 一 个 咖啡 机 的 印刷 说 明 指 南通 过 增强 现实 展示 的 结果 。a) 化 身 表 明了 用 户 的 
观察 视角 。b) ~ c) 当 用 户 移 动 到 指定 位 置 后 ， 门 将 打开 并 示 出 咖啡 酿造 单元 ， 
如 图 中 黄色 部 分 所 示 (由 Peter Mohr 提供 ， 见 彩 插 ) 


Hf RK 223 


10.3.2 ”表演 开发 


如 果 一 个 增强 现实 界面 直接 用 于 描述 内 容 ， 我 们 将 这 种 解决 方案 称 为 表演 开发 。 

表演 开发 最 明显 的 应 用 是 表达 涉及 直接 在 空间 中 的 真实 对 象 的 动画 ， 将 在 稍 后 被 查看 。 
3D Puppetry[Held et al. 2012] 是 一 个 显著 的 例子 ,该 系统 观察 赏 玩 木 偶 的 用 户 和 其 他 对 象 ， 
通过 捕捉 对 应 的 动作 合成 动画 序列 。KinEtre [Chen et al. 2012] 采取 相似 的 方法 ,但 是 其 直 
接 通过 骨骼 跟踪 捕获 用 户 的 动作 ， 并 将 它们 转化 为 椅子 等 无 生命 的 物体 。 其 结果 类 似 于 迪 士 
尼 电 影 《 美 女 与 野兽 》 中 家 居 物 品 的 动画 。 

同样 ， 可 以 通过 沉浸 式 开 发 来 表达 应 用 程序 逻辑 。Lee 等 人 [2004] 描述 了 一 个 实物 增强 
现实 方案 ， 侧 重 于 创建 增强 现实 空间 中 本 地 角色 之 间 的 互动 ， 即 直接 沉浸 在 增强 现实 体验 
中 。 为 了 实现 这 一 目标 ， 系 统 提供 了 角色 标识 与 工具 标识 ( 见 图 10.6 )。 工 具 标 识 能 够 用 于 
操控 物体 ， 如 改变 尺度 与 颜色 。 角 色 属 性 之 间 更 加 复杂 的 行为 可 以 通过 设置 一 个 简单 的 数据 
流 进行 创建 。 例 如 ， 对 象 的 可 见 性 能 够 与 特殊 标识 的 出 现 进行 绑 定 ， 从 而 可 以 基于 用 户 操作 
标识 来 显示 物体 。 





图 10.6 ”这 个 来 源 于 实物 增强 现实 沉浸 式 开发 框架 的 屏幕 截图 展示 了 如 何 通过 一 个 检测 
窗口 部 件 与 一 个 键盘 来 改变 立方 体 的 尺度 (由 Mark Billinghurst 提供 ) 


10.4 ”插件 方法 


随 着 增强 现实 逐渐 成 为 主流 技术 ， 本 书 上 一 节 中 提出 的 实验 性 独立 开发 解决 方案 正在 被 
已 有 的 多 媒体 开发 及 实现 环境 的 增强 现实 插件 所 取代 。 显 然 ， 增 强 现实 工具 与 通用 建 模 工 具 
之 间 存 在 很 大 的 重生 (特别 是 数字 内 容 创 建 工 具 及 游戏 引擎 )。 已 有 的 建 模 与 动画 制作 软件 
的 成 熟 度 具 有 明显 上 且 不 容 忽视 的 优势 ， 能 够 通过 添加 增强 现实 成 为 一 种 内 容 创 建 软件 所 文 持 
的 新 型 目标 平台 。 这 一 目标 能 够 很 容易 地 通过 使 用 当今 专业 多 媒体 软件 包 内 置 的 扩展 功能 加 
以 实现 。 

插件 方法 的 领军 工具 是 佐治 亚 理 工学 院 [MacIntyre et al. 2004b] 开发 的 设计 师 增强 现实 
工具 包 (DART)。DART 对 Macromedia Director 进行 了 扩展 ，Macromedia Director 是 21 ttt 
纪 早 期 多 媒体 应 用 程序 的 主流 开发 工具 ( 见 图 10.7 )。DART 使 得 已 经 熟悉 Director 的 使 用 
者 能 够 快速 创建 引人入胜 的 增强 现实 应 用 程序 ， 通 常 使 用 草图 以 及 视频 而 不 是 三 维 模型 作为 
开发 的 起 点 。Macromedia Director 提供 了 非 线 性 叙事 与 通用 的 脚本 语言 一 一 Lingo。 





图 10.7 DART 在 Macromedia Director 开发 环境 中 增加 了 增强 现实 开发 (由 Blair Macintyre 
提供 ) 


由 于 Macromedia Director 对 三 维 图 形 的 支持 比较 薄弱 ， 同 时 基于 网 络 的 动画 形式 的 苋 
争 使 得 软件 平台 以 及 DART 衰落 。 尽 管 如 此 ， 增 强 现实 插件 方法 仍 与 我 们 息息相关 [Gandy 
and MacIntyre 2014]。 突 出 的 例子 包括 3DS Max、Maya 以 及 Google Sketchup 的 插件 [Terenzi 
and Terenzi 2011]， 以 及 以 通用 Unity3D 游戏 引擎 为 基础 的 解决 方案 ， 如 Qualcomm Vuforia、 
Metaio Mobile SDK 以 及 TotalImmersion D'Fusion 等 。 此 外 ， 很 多 非 商 业 性 的 扩展 可 用 于 其 
他 的 多 媒体 工具 ， 如 Flash (如 FLARToolKit) 和 Processing. 


10.5 MARR 


在 当今 的 信息 系统 中 ， 网 络 技术 已 经 成 为 生产 及 消费 多 媒体 信息 的 领头 羊 。 网 络 带 来 了 
丰富 的 浏览 器 软件 环境 、 服 务 器 框架 及 内 容 创建 工具 。 由 于 这 些 优 势 ， 网 络 内 容 被 认为 越 来 
越 能 够 吸引 增强 现实 浏览 器 以 及 增强 现实 工具 的 开发 者 ， 因 为 它 能 够 将 传统 网 络 技 术 所 做 的 
大 量 工作 复 用 在 增强 现实 中 。 

尤其 ， 最 新 的 网 络 标准 HTMLS 及 其 相关 技术 正在 快速 地 演变 成 为 一 个 解决 增强 现实 基 
本 需求 的 通用 应 用 程序 平台 。 作 为 一 个 现存 并 广泛 应 用 的 应 用 程序 框架 的 一 部 分 ， 网 络 技术 
能 够 提供 增强 现实 体验 ， 因 此 具有 良好 的 平台 独立 性 。 通 过 谷歌 地 球 普 及 推广 的 KML 格式 
的 地 标 可 以 方便 地 存储 地 理 参 考 兴 趣 点 。 级 联 样式 表 (Css) 可 用 于 分 离 外 观 和 内 容 ， 并 提 
供 对 经 验 的 自 定义 控制 。CSS3 已 经 考虑 到 了 三 维 的 布局 ， 这 是 有 效 增强 现实 布局 的 必要 先 
决 条 件 。WebGL 允许 在 Web 浏览 右 中 对 三 维 图 形 进 行 硬件 加 速 泻 染 。 

所 有 这 些 都 是 由 JavaScript 绑 定 在 一 起 的 ， 它 已 经 成 为 网 络 应 用 程序 无 处 不 在 的 编程 语 
Ao WJ JavaScript 接口 封 效 增强 现实 框架 ， 能 人 够 实现 Web 浏览 右 的 快速 增强 现实 开发 。 许 
多 人 们 已 经 开始 接受 网 络 开发 的 培训 ， 因 此 在 招聘 增强 现实 开发 者 以 及 内 容 提供 者 时 ， 采 用 
增强 现实 标准 网 络 格式 能 够 允许 人 们 使 用 这 些 现 有 的 技能 。 

网 络 最 吸引 人 们 的 特性 之 一 是 能 够 解 看 多 媒体 信息 的 生产 者 与 消费 者 。 任 何人 都 可 以 在 
网 站 、 博 客 、 推 特 账户 上 发 布 或 送 入 RSS 而 不 必 首 先 通过 中 央 控 制 。 用 户 可 以 自行 决定 订 
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epee tei 获取 的 信息 。 换 句 话 说， 用户 可 以 访问 大 量 

的 信息 频道 。 这 种 频道 的 想法 对 于 可 扩展 的 增强 现实 浏览 非常 ER, 其 中 用 户 还 可 以 订阅 多 
个 增强 现实 频道 提供 的 地 标 及 其 他 增强 现实 内 容 。 频道 机 制 本 质 上 是 一 个 语义 的 过 滤器 ， 用 
户 与 当前 位 置 的 距离 被 用 作 空 间 过 滤 硕 。 同 时 ， 应 用 语义 及 空间 过 滤 需 能 够 提供 高 效 且 有 效 
的 信息 过 载 管理 方式 。 

通过 使 用 请 如 客户 妆 脚 本 等 技术 ,“ 被 动 ”内容 与 “主动 ”应 用 程序 之 间 的 界限 已 经 变 
得 模糊 。 当 今 的 网 络 开 发 工具 包 提 供 了 对 应 用 程序 外 观 及 感受 的 全 面 控制 。 网 络 应 用 程序 的 
各 种 架构 十 分 第 见 ， 包 括 在 客户 端 执行 的 移动 代码 。AJAX 等 应 用 程序 框架 允许 部 分 应 用 程 
序 代码 在 客户 疹 上 运行 ， 另 一 部 分 代码 在 服务 器 上 运行 。 

增强 现实 频道 架构 必须 允许 对 内 容 外 观 的 完全 控制 ， 即 使 当 它 与 其 他 内 容 并 行 显示 时 。 
da 文 种 方法 有 一 个 缺点 : 多 个 频 
道 可 能 存在 对 屏幕 空间 的 竞争 并 产生 杂乱 的 显示 。 能 够 解决 这 一 竞争 的 合适 视图 管理 策略 仍 
然 是 一 个 开放 的 研究 课题 ， 

增强 现实 网 络 频道 的 理念 是 通过 Argon N W aral AY [MacIntyre et al. 2011]。 它 基于 
Pen ZAM aes |S (WebKit) 来 对 增强 现实 显示 的 HTML 及 KML A Bete OLA 
10.8). Argon 对 增强 现实 建 模 语言 (ARML ) 的 创建 具有 显著 的 影响 ，ARML 是 基于 网 络 的 
增强 现实 内 容 XML 语言 变 体 [MacIntyre et al. 2013]. 





图 10.8 Argon 浏览 郁 显 示 通 过 网 络 技术 定义 的 多 频道 内 容 (由 Blair Macintyre 提供 ) 


10.6 小结 

形 如 增强 现实 的 新 媒介 在 被 真正 理解 并 广泛 使 用 之 前 需要 努力 克服 技术 困难 ， 这 方面 的 
一 项 工作 是 识别 和 解决 增强 现实 独特 的 需求 ， 从 而 可 以 成 功 提 供 增 强 现 实 开发 工具 解决 方 
案 。 我 们 已 经 确定 真实 世界 界面 、 人 硬件 抽象 以 及 开发 流程 工具 是 最 重要 的 需求 。 
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除了 基本 需求 以 及 由 此 产生 的 技术 问题 之 外 ， 我 们 还 研究 了 增强 现实 开发 的 两 个 最 新 趋 
势 一 一 即将 增强 现实 作为 插件 引入 现 有 多 媒体 和 游戏 引擎 的 解决 方案 ， 以 及 利用 网 络 技术 进 
行 增强 现实 开发 的 解决 方案 。 从 这 些 最 新 解决 方案 的 工作 环境 继承 的 丰富 功能 可 能 成 为 增强 
现实 开发 在 更 大 的 社区 环境 中 取得 成 功 的 重要 机 会 。 


EFE: 


Augmented Reality: Principles and Practice 


漫 Df 





在 执行 真实 世界 任务 的 时 候 ， 增 强 现实 漫游 能 够 加 强 对 真实 世界 的 探索 、 协 助 寻 路 及 文 
持 视 点 控制 。 由 于 强调 了 第 一 人 称 视角 ， 增 强 现 实 可 以 将 导航 支持 直接 舱 入 到 用 户 的 活动 
中 。 然 而 ,设计 可 以 真正 有 帮助 的 增强 需要 仔细 的 考量 。 本 章 将 讨论 增强 现实 如 何 支 持 探 索 
与 发 现 、 路 径 可 视 化 和 引导 视点 调整 。 我 们 也 考虑 组 合 多 视点 来 提供 概述 和 细节 或 用 户 自 身 
难以 达到 的 视点 。 


11.1 人 类 漫游 基础 


漫游 ( 即 在 环境 中 移动 ) 包括 旅行 、 寻 路 和 探索 。 旅 行 是 控制 一 个 人 位 置 和 姿态 所 必要 
的 神经 活动 ; 寻 路 是 用 户 更 高 层次 的 认识 ， 例 如 了 解 一 个 人 当前 的 位 置 、 规 划 到 另 一 个 位 置 
的 路 径 或 者 更 新 环境 的 感知 地 图 ; 探索 是 了 解 和 测量 一 个 未 知 的 环境 及 其 影响 。 

寻 路 和 探索 需要 获取 空间 知识 并 将 之 构建 成 感知 地 图 [Bowman et al. 2005] [Grasset et 
al. 2011]。 空 间 知 识 的 获取 有 很 多 来 源 。Darken 和 Peterson [2001] 区 分 了 主要 和 次 要 来 源 。 
环境 本 身 是 主要 的 来 源 : 人 类 不 断 从 他 们 对 环境 的 观察 中 提取 空间 信息 。 所 有 其 他 来 源 ( 包 
括 地 图 、 图 片 和 视频 ) 都 是 次 要 来 源 。 次 要 来 源 允 许 更 快 的 空间 知识 积累 ,但 抽象 表示 在 感 
知 地 图 的 准确 性 方面 通常 与 第 一 人 称 经 验 不 匹配 。 

可 以 将 空间 知识 分 为 以 下 几 类 [Lynch and Lynch 1960] [Siegel and White 1975]: 

e 地 标 是 环境 中 的 突出 参考 点 ， 这 是 人 类 对 环境 结构 和 自身 位 置 的 提示 。 地 标 通 过 其 

视觉 外 观 被 记忆 ， 所 以 重要 的 是 它们 需要 具备 唯一 性 并 不 易 被 混淆 。 最 重要 的 地 标 
是 那些 可 以 从 远 处 被 看 到 的 物体 ， 但 是 一 些小 的 局 部 细节 也 可 以 作为 地 标 。 地 标 可 
以 与 视点 相关 ， 也 可 以 与 视点 无 关 。 

e 路 线 是 一 系列 从 给 定 的 起 点 导航 到 给 定 的 终点 所 需 的 动作 序列 。 在 每 两 个 点 之 间 的 

距离 、 转 向 和 地 标的 顺序 都 会 被 记忆 。 环 境 中 的 其 他 组 成 部 分 往往 与 路 线 当 中 具体 


的 点 和 段 有 关 。 
o 节点 是 决策 点 ， 在 节点 处 用 户 可 以 在 路 径 之 间 进 行 选 择 。 路 径 规划 和 路 径 决 策 通 稍 
SPAAR. 


e 区 域 是 环境 中 较 大 的 地 区 ， 如 公园 或 购物 街 。 
e 边缘 划分 了 环境 。 例 如 ， 横 穿 一 条 路 或 一 条 河 时 需要 特殊 方式 或 者 在 特殊 的 位 置 。 
边缘 与 上 下 文 有 关 ， 例 如 一 个 行人 会 将 街道 作为 一 个 边缘 ， 而 一 名 司机 会 将 一 条 街 
道 分 类 为 一 条 路 线 。 
e 测绘 知识 主要 由 地 标 和 路 线 之 间 的 全 局 空间 关系 组 成 。 随 着 时 间 的 推移 ， 通 常 通过 
在 环境 中 反复 导航 或 者 通过 次 要 来 源 使 测绘 知识 得 到 积累 。 
在 导航 任务 中 ， 用 户 应 用 与 不 同 参 考 帧 相关 的 各 种 类 型 空间 知识 [Goldin and Thorndyke 
1981]。 对 于 以 自我 为 中 心 的 任务 (例如 对 上 自己 身体 的 姿态 和 距离 的 估计 ) 需要 路 径 知 识 。 对 
于 以 外 部 为 中 心 的 任务 (例如 在 环境 中 估计 两 个 远 处 点 之 间 的 距离 ) 需要 测绘 知识 的 帮助 。 
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因为 可 获取 的 知识 会 发 生变 化 ， 成 功 导 航 的 关键 在 于 解决 空间 知识 参考 坐标 与 要 执行 任 
务 的 参考 坐标 之 间 的 转换 。 两 个 参考 坐标 之 间 的 距离 越 小 ， 那 么 在 两 个 坐标 之 则 进行 转换 的 
用 户 的 感知 负担 就 越 小 。 


11.2 探索 与 发 现 


幸运 的 是 ， 在 所 有 的 参考 坐标 系 中 增强 现实 都 可 以 提供 导航 支持 。 最 明显 的 用 例 是 以 目 
我 为 中 心 的 探索 。 增 强 现实 浏览 器 呈现 的 动态 注释 可 以 把 用 户 引 导 到 环境 中 的 兴趣 点 。 用 户 
可 以 通过 表达 个 人 吝 好 来 告知 兴趣 点 的 选择 。 

通过 增强 现实 进行 探索 具有 双重 优点 : 用 户 可 以 更 快 地 进行 探索 ; 增加 了 用 户 识别 所 有 
相关 信息 的 机 会 。 后 者 有 时 被 称 作 情 境 感知 ， 在 搜索 救援 或 军事 行动 等 紧急 情况 下 特别 重 
要 。 在 这 些 情况 下 ， 操 作 人 员 必 须 在 操作 信息 设备 时 不 被 打扰 地 持续 关注 他 们 周围 的 三 维 环 
境 。 一 个 很 好 的 例子 就 是 Julier 等 人 [2000] 开发 的 战场 增强 现实 系统 ， 该 系统 提供 了 汽车 、 
坦克 或 阻击 手 等 相关 要 系 的 位 置 的 信息 ， 这 些 要 紊 的 位 置 可 以 动态 变化 ， 所 以 在 用 户 视 野 中 
持续 提供 这 些 信息 对 感知 具有 非常 明显 的 作用 。 

在 当前 视角 目标 物体 不 可 见 ， 或 者 至 少 是 需要 移动 一 段 距离 才 可 见 的 情况 下 ， 探索 就 变 
成 了 发 现 。 在 第 7 章 中 ， 我们 讨论 了 可 以 协助 发 现 的 可 视 化 技术 。 修 改 用 户 环境 视图 的 两 种 
重要 方法 分 别 是 X 射 线 可 视 化 和 场景 变形 。X 射线 可 视 化 通过 部 分 或 完全 透明 的 方式 来 泻 
Yun] WAGE, BAEC PAY Mae XT Ss [Feiner and Seligmann 1992] [Avery et al. 2009] [Zollmann 
et al. 2010], Æ JEH wt FH Hh A E SE RUE FS [Veas et al. 2012b] 或 屏幕 之 外 [Sandor et al. 
2010b] 部 分 的 视图 ， 或 通过 压缩 前 景 对 象 来 显示 遮挡 的 对 象 。 


11.3 路线 可 视 化 


与 探索 类 似 ， 寻 路 是 一 项 主要 在 以 自我 为 中 心 的 参考 坐标 系 下 进行 的 重要 导航 活动 。 增 
强 现实 支持 寻 路 的 一 个 典型 方法 是 用 一 条 连续 曲线 或 者 一 系列 航路 点 来 展示 它 的 路 径 。 该 
方法 与 传统 的 车 载 导航 系统 的 不 同 之 处 在 于 ， 可 以 直接 覆盖 在 用 户 对 真实 世界 的 感知 上 。 例 
如 ，Tinmith[Thomas et al. 1998] 在 用 户 前 进 时 通过 高 亮 下 一 个 前 进 的 地 点 来 呈现 一 个 航路 点 
序列 。 路 标 [Reitmayr and Schmalstieg 2004] 让 用 户 选 择 目的 地 并 动态 呈现 路 径 的 可 视 化 〈 见 
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图 11.1 路 标 系统 让 户外 增强 现实 用 户 沿 着 航线 点 组 成 的 路 线 前 进 (红色 柱 )( 由 Gerhard 
Reitmayr Eft, MEIA) 


Wagner 和 Schmalstieg[2003] 后 续 开 发 了 用 于 手持 设备 的 室内 路 标 。 他 们 的 手持 界面 指 
回 门 外 并 和 礁 加 一 个 指示 用 户 下 一 步 前 进 方 回 的 指 回 箭头 〈 见 图 11.2 )。 
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(由 Daniel Wagner 提供 ， 见 彩 播 ) 


Mulloni 和 Schmalstieg[2012] 对 增强 现实 户外 导航 和 地 图 户外 导航 做 了 比较 研究 ， 他 们 
发 现 大 多 数 用 户 会 在 路 线 的 节点 参考 增强 现实 视图 ( 即 在 决策 点 提供 文 持 )， 然 而 他 们 会 连 
续 使 用 地 图 ( 见 图 11.3 )。 这 一 结果 表明 ， 需 要 做 决策 时 导航 已 经 足以 支持 ， 并 且 增 强 现实 
可 以 为 这 个 目标 提供 有 效 的 界面 
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图 11.3 ”图 中 示 出 了 沿 着 路 线 的 每 个 点 使 用 导航 界面 用 户 的 数量 。 更 深 的 颜色 意味 着 更 多 
的 用 户 使 用 界面 。a) 使 用 传统 地 图 界面 时 ， 沿 整个 路 径 的 使 用 频 度 是 一 致 的 。 
b) 增强 现实 界面 主要 用 于 需要 做 出 决策 的 节点 (由 Alessandro Mulloni 提供 ) 


一 个 类 似 的 方法 被 用 在 室内 导航 中 [Mulloni et al. 2012]， 即 一 个 很 难 提 供 持 续 定 位 的 情 
境 。 在 决策 节点 的 增强 现实 导航 ， 例 如 在 走 亡 的 交汇 处 或 楼 梯 处 ， 通 过 在 市 点 之 间 结 合 了 增 
强 现 实 可 视 化 路 径 ， 可 以 提供 室内 导航 的 有 歼 工 具 ( 见 图 11.4 )。 
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图 11.4 a) 当 用 户 行 走时 ， 提 供 路 线 的 虚拟 现实 可 视 化 。b) 当 用 户 到 达 决 策 节点 时 ， 
提供 整 条 路 径 和 环境 配 准 的 增强 现实 显示 。c) 当 用 户 离开 节点 后 ， 显 示 切 换 回 
虚拟 现实 (由 Alessandro Mulloni 提供 ) 


11.4 ”视点 导航 


在 一 个 小 的 工作 空间 ， 用 户 可 以 很 容易 地 对 环境 有 一 个 全 面 的 认识 ， 因 此 并 不 需要 任何 
导航 ， 在 这 种 情况 下 使 用 增强 现实 经 党 是 很 有 用 处 的 。 一 个 目标 对 象 可 能 处 于 用 户 的 视野 
之 外 ,或 者 混杂 在 很 多 相似 的 对 象 当 中 。 比 发 现 目标 对 和 象 更 难 的 问题 是 找到 目标 的 视角 。 例 
如 ， 找 到 一 张 特定 照片 的 拍摄 视角 [Bae et al. 2010]。 本 节 我 们 讨论 两 个 任务 : 引导 用 户 朝 向 
目标 对 象 和 引导 用 户 朝 问 目 标 视点 。 


11.4.1 目标 对 和 象 导 引 


在 增强 现实 中 ， 经 帝 会 遇 到 目标 对 象 或 航向 点 处 于 视野 之 外 的 情况 ， 特 别 是 许多 增强 现 
Pr ht 在 这 些 情况 下 ， 导 3 引 通 常 由 字母 或 第 头 提 供 。 这 些 可 以 通过 使 
用 指 癌 用 户 正 确 方 回 的 罗盘 指针 [Feiner et al. 1997][Wagner and Schmalstieg 2003] 或 屏幕 边 
框 的 箭头 [Thomas et al.1998] 实现 。Schinke 等 人 [2010] 展示 了 离 屏 注释 的 三 维 箭头 暗示 对 
于 目标 对 象 方向 的 记忆 比 二 维 雷 达 图 ( 自 上 而 下 ) 更 加 有 效 。 

一 些 更 高 级 的 视觉 设计 不 仅 告知 用 户 方向 ， 同 时 还 包括 目标 对 象 的 距离 和 频率 。 光 环 
[Baudisch and Rosenholtz 2003] 是 以 离 屏 目标 对 象 为 中 心 的 圆 〈 见 图 11.5 )。 可 见 弧 的 曲率 
可 以 直观 地 表示 到 对 象 的 距离 。 
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图 11.5 光环 是 一 条 弧 ， 其 曲率 与 屏 外 物体 的 距离 成 正比 
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上 下 文 罗 盘 [Suomela and Lehikoinen 2000] 使 用 跨越 屏幕 om BN ER TBH A ty Ae AI ZN A tit te — 
水 平 前 向 视 场 (例如 110°) 目标 对 象 的 垂 Ce 当 展 示 完 整 的 360° 时 ， 这 个 应 用 
程序 本 质 上 是 一 个 市 有 圆柱 形 映 射 极 坐 标的 雷达 地 图 ( 见 图 11.6 )。 甚 方 回 始终 对 准 显示 方 问 ， 
即 可 见 对 象 出 现在 地 图 的 中 心 。 不 在 用 户 当 前 视野 中 的 元 素 用 履 盖 图 边 绷 的 图 标 表示 。 





a) 


A116 上下文 罗盘 是 屏幕 底部 的 窄带 ， 表 示 可 能 的 方向 。a) 可 以 看 到 箭头 登 加 ; b) 用 
户 可 以 使 用 罗盘 上 下 文 来 查找 离 屏 箭头 《由 Alessandro Mulloni 提供 ) 


如 果 目 标 不 仅仅 是 对 外 围 或 视野 外 物体 的 通用 感知 ， 而 用 户 应 该 被 尽 可 能 快速 地 引 寺 至 
mirer rr 用 于 通知 和 约束 用 户 导 航 的 通用 隐喻 被 称 为 隧 
WA 11.7 ) 。 隧 道 状 结构 的 轮廓 显示 为 到 加 的 三 维 线 框 。 结 构 的 透视 缩 略 图 传达 用 户 必 
err 路 径 ， pa 当 用 户 通过 隧道 导航 时 ， 已 经 游历 的 部 分 在 用 户 身 后 
消失 ， 而 用 户 面前 部 分 的 细节 更 加 突出 。Biocca 等 人 [2006] 将 这 种 设计 作为 注意 漏斗 引入 ， 
并 且 经 验 地 验证 它 比 目标 对 象 的 视觉 高 亮 显 示 更 加 有 效 。 用 户 研 究 表明 这 种 可 视 化 增加 了 搜 
索 速 度 的 同时 减少 了 认 知 负担 。Schwerdtfeger 和 Klinker [2008] 在 为 订单 取 货 的 仓库 场景 中 
测试 了 一 个 修改 的 隧道 设计 ， 结 果 表 明 这 可 以 提高 真实 世界 任务 的 性 能 





图 11.7 隧道 可 视 化 将 用 户 的 注意 力 引 守 到 隧道 端 部 的 特定 对 温 


Shingu 等 人 [2010] 讨论 了 用 于 引导 用 户 朝 加 目标 点 的 锥 形 隧道 。 用 户 必 须 进 入 锥 体 并 
且 通 过 和 定向 相机 使 得 以 目标 点 为 中 心 的 球体 在 屏幕 上 可 见 。 

Hartl 等 人 [2014] 讨论 了 利用 移动 设备 验证 护照 等 安全 文档 上 全 息 图 真实 性 的 系统 。 通 
过 与 真实 全 息 图 的 已 知 视角 进行 比较 进行 了 样本 测试 。 为 了 提供 观察 ， 用 户 必须 将 摄像 机 指 
向 一 组 给 定 方向 的 样本 。Hartl 等 人 建议 使 用 “ 馅 饼 切 片 ” 界 面 ， 其 中 方向 被 显示 为 样本 平 
面 上 县 加 的 极 坐 标 网 格 ， 而 目标 方向 被 高 亮 显 示 LA 11.8 )。“ 馅 饼 切 片 ” 可 以 视 为 隧道 可 
视 化 的 极 简 版 本 ， 仅 显示 了 二 维 端 点 。 
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3 ) b) 
图 11.8 a) 全 息 图 的 外 观 随 着 和 人 射 观 察 方 向 而 变化 。b) 黄色 圆圈 将 用 户 引 导 至 特定 
的 观看 方 回 ， 通 过 角度 及 到 “ 馅 饼 切 片 ” 可 视 化 的 中 心 距 离 进 行 编码 (由 
Andreas Hartl #2 (, MEIA) 


Sukan 等 人 [2014] 观察 到 除非 目标 对 象 非常 小 ， 通 第 有 许多 种 进行 观察 的 可 能 性 。 因 
此 ， 他 们 提出 了 一 种 推广 的 隧道 设计 ParaFrustum， 连 接 了 引导 用 户 到 可 接受 视图 的 任意 
look-from 和 look-at 卷 。 


11.4.2 目标 视点 导 引 

在 指向 目标 对 象 的 引导 中 目标 对 象 可 视 或 者 被 用 户 注意 到 时 就 会 被 识别 ， 与 此 不 同 ,， 视 
点 没有 任何 的 物理 表象 。 引 导 用 户 旨 癌 特 定 视点 仍然 非常 重要 。 例 如 ， 当 需要 更 新 历史 照片 
时 的 照片 担 摄 。 

获得 所 需 视 点 的 最 直接 可 视 化 通过 金字 塔 形 视图 平 截 头 体 实现 〈 见 图 11.9 )。 该 应 用 程 
序 由 Snavely 等 人 [2006] 提出 用 于 导航 照片 收集 。Sun 等 人 [2013] 将 其 用 于 超声 小 探头 的 精 
确 对 准 。 
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图 11.9 黄色 金字 塔 图 标示 出 了 对 应 图 像 序列 的 摄像 机 平 截 头 体 (由 Clemens Arth 提供 ， 见 彩 捅 ) 


d 游 233 


Bae SFA [2010] 提出 了 使 用 类 似 于 用 来 指 癌 屏 蒂 外 目标 定 问 第 头 的 间接 方法 ， 让 用 户 
接近 所 需 的 视点 。 当 用 户 足 够 接近 目标 视点 时 ,用户 依赖 原始 照片 的 透明 演 染 来 确保 其 精 
确 对 齐 。 


11.5 ”多 视角 

概述 和 调查 知识 通常 依赖 类 似 在 地 图 中 使 用 的 以 外 部 为 中 心 的 视角 。 第 8 章 讨 论 过 的 以 
自我 为 中 心 和 以 外 部 为 中 心 的 视角 可 以 组 合成 为 一 个 多 视角 界面 。 原 则 上 ， 沉 浸 在 环境 中 
查询 地 图 就 是 这 样 一 个 组 合 的 实例 。 移 动 设备 上 普遍 具有 的 数字 地 图 在 用 户 移动 时 可 以 被 更 
新 : 考虑 一 个 车 载 导航 系统 ， 显 示 与 车 辆 当前 方向 对 齐 的 用 户 附 近 的 地 图 


11.5.1 同步 多 视角 

一 个 以 自我 为 中 心 的 增强 现实 视图 可 以 很 容易 地 与 以 外 部 为 中 心 的 视图 结合 ， 无 论 是 通过 
把 屏 萌 的 一 部 分 用 于 以 外 部 为 中 心 的 视图 ， 还 是 把 以 外 部 为 中 心 的 视图 透明 地 三 加 在 以 目 我 为 
中 心 的 视图 之 上 LE 11.10 )。 后 一 种 方法 利用 了 地 图 信息 通常 可 以 使 用 刚刚 创建 的 是 印 、 兴 
趣 点 和 黎 疏 文本 标签 进行 演 染 这 一 事实 。 透 明 的 全 加 可 以 市 省 罕 视 场 显示 的 屏 蒂 空间 。 


Set Stari SetEnd Show Wan Options Exit'\i 





图 11.10 Æ- WRR PAG SPP Oo) Ae ee: Be A — E A E KS 
三 维 增强 现实 (由 Daniel Wagner 提供 ) 


额外 的 好 处 是 实现 以 自我 为 中 心 和 以 外 部 为 中 心 增强 的 链接 。 在 一 个 视图 中 的 选择 会 
导致 在 另 一 个 视图 中 的 高 亮 显 示 。 用 户 的 当前 位 置 在 以 外 部 为 中 心 的 视图 中 被 高 亮 显示 。 
地 图 中 到 一 个 兴趣 点 的 距离 可 以 通过 首先 在 以 自我 为 中 心 的 视图 中 识别 兴趣 点 [Wither and 
Hollerer 2005] ， 然 后 通过 确定 用 户 位 置 与 在 以 外 部 为 中 心 的 兴趣 点 的 距离 进行 估计 ( 见 图 
11.11 )。 如 果 路 线 导 航 在 以 自我 为 中 心 的 视点 是 不 可 见 的 ， 则 可 以 很 方便 地 通过 在 以 外 部 为 
中 心 的 视点 指出 目的 地 。 

Bell 等 人 [2002] 提出 一 个 世界 缩 略 图 增强 现实 ( WIM)， 一 个 倾斜 朝 问 佩戴 头盔 用 户 的 
三 维 地 图 。 随 着 用 户 越 来 越 往 下 看 ，WIM 从 一 个 略微 倾斜 的 位 置 转变 为 自 顶 回 下 的 视图 。 
Reitmayr 和 Schmalstieg [2003] 将 WIM 放置 在 用 户 的 手 上 ( 见 图 11.12 )， 这 样 用 户 抬 起 手 
辟 就 可 以 立刻 访问 WIM. 

Bane 和 Héllerer [2004] 的 XX 射线 可 视 化 系统 允许 用 户 在 一 栋 建 筑 内 相隔 一 定 距 离 
来 探索 。 用 户 首先 选择 目标 房间 ， 然 后 触发 一 个 以 外 部 为 中 心 的 选 定 房间 虚拟 视图 ( 见 
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与 将 以 外 部 为 中 心 的 视图 登 加 在 以 目 我 为 中 心 的 视图 不 同 ，Hoang 和 Thomas[2010] 提 
出 为 外 一 种 方案 : 他 们 将 放大 远 处 对 象 的 细节 内 和 到 正 篆 的 以 自我 为 中 心 的 视图 中 。 放 大 的 
视图 通过 市 有 放大 错 的 摄像 头 实时 获取 。 与 地 图 或 WIM 不 同 的 是 ， 有 覆盖 提供 了 细节 ， 而 标 
准 视 图 提供 概述 。 


11.5.2 ”过 渡 接 口 


当 屏 舌 空 间 不 足以 显示 多 个 视图 时 ， 可 以 使 用 一 个 过 渡 接 口 。 它 依赖 于 时 间 而 不 是 空间 
分 离 来 呈现 多 视角 。 

“过 渡 接 口 ” 这 个 术语 最 初 是 用 来 描述 用 户 从 以 外 部 为 中 心 的 增强 现实 视图 转移 到 以 自 
我 为 中 心 的 增强 现实 视图 的 接口 ， 本 质 是 用 户 沿 着 虚拟 现实 连续 体 移动 ( 见 图 11.14 )。 例 
如 ，Billinghurst 等 人 [2001] 描述 了 一 个 将 用 户 传 送 到 麻 法 书页 面 作为 叙事 工具 的 系统 。 
Hollerer 等 人 [1999a] 让 用 户 过 渡 到 环绕 视图 沉浸 式 隧道 系统 体验 ， 把 用 户 的 物理 位 置 作为 
大 学 校园 历史 增强 现实 导 览 的 一 部 分 。 


> 





图 11.14 ”过渡 接口 可 以 把 用 户 从 增强 现实 模型 市 到 生活 规模 的 虚拟 现实 环境 


Kiyokawa 等 人 [1999] 让 用 户 通 过 一 个 以 自我 为 中 心 的 视角 体验 一 个 通过 以 外 部 为 中 心 
的 视角 进行 创建 的 建筑 设计 。 与 之 相对 ，Mulloni 等 人 [2010] 将 提供 概述 的 过 渡 接 口 看 作 是 
从 以 目 我 为 中 心 的 增强 现实 视图 移动 到 以 外 部 为 中 心 的 增强 现实 视图 ( 见 图 11.15 )。 过 渡 通 
过 从 上 到 下 平滑 移动 摄像 机 的 视点 来 实现 。 人 研究 人 员 通 过 一 组 空间 搜索 任务 评估 了 他 们 的 界 
面 并 且 指 出 当 用 户 强 烈 依 赖 于 总 览 时 ， 随 着 任务 复杂 性 的 提高 过 渡 接 口 的 性 能 也 同时 提升 。 





图 11.15 缩放 界面 允许 用 户 无 颖 地 从 增强 现实 月 我 透视 视图 过 渡 到 环境 的 全 景 视 图 或 
者 地 图 总 览 (由 Alessandro Mulloni 提供 ) 


当 过 渡 到 全 景 时 可 以 观察 到 类 似 的 效果 ， 在 本 质 上 模拟 一 个 超 广角 镜头 

万 一 个 WIM 表示 能 够 根据 跟踪 质量 的 变化 在 以 目 我 为 中 心 和 以 外 部 为 中 心 的 视角 之 
间 过 渡 。 高 质量 的 跟 踊 提供 直接 覆盖 在 以 自我 为 中 心 视角 的 注释 和 路 径 信 息 ， 而 劣化 的 跟 
蹊 质 量 提示 使 用 WIM， 它 显示 在 以 有 身体 为 参考 的 坐标 系 ， 因 此 不 会 受到 跟踪 不 稳定 的 影响 
[Hollerer et al. 2001b] [Bell et al. 2002] 

如 采用 户 会 遇 到 不 同 的 以 目 我 中 心 的 视点 则 过 渡 接 口 同 样 很 有 用 。 例 如， 难以 或 不 方便 
到 达 的 视点 。Sukan 等 人 [2012] 提出 快照 的 方法 ， 其 中 用 户 首 先 在 增强 现实 模式 下 获得 环境 
的 静态 快照 视图 ， 然 后 可 以 在 虚拟 现实 模式 下 任意 地 在 这 些 视图 之 间 转 换 。 

Tatzgern 等 人 [2014a] 提出 了 一 种 显示 实际 过 渡 的 改进 方法 。 获 取 静 态 环 境 的 三 维 扫描 
后 ， 用 户 可 以 从 实时 增强 现实 视图 飞人 任意 的 虚拟 现实 视图 ( 见 图 11.16 )。 这 允许 对 放大 视 
图 (在 它们 被 高 分 辩 率 扫描 之 后 ) 或 移动 到 遮挡 区 域 的 简单 探索 。 例如， 触摸 屏幕 上 的 对 和 象 
将 使 得 用 户 徘 近 这 个 对 象 下 到 它 充 满 屏 镑 ， 并 在 用 户 松 开 触摸 屏幕 后 平滑 恢复 。 
区 域 俯视 图 
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“a Fe STH D)” “ 扣 击 ” “压力 和 阻力 ” 
AR 视点 插值 VR 
图 11.16 通过 在 实时 增强 现实 视图 中 触 挽 对 象 ( 左 )， 用 户 可 以 触发 一 个 目 上 而 下 或 正 
面 视 点 的 放大 虚拟 现实 视图 的 转换 (由 Markus Tatzgern 提供 ) 


11.6 小结 


基于 人 类 赣 洲 的 基本 考虑 ,我们 讨论 了 使 用 增强 现实 的 漫游 。 通 过 增加 情境 感知 和 发 现 
隐藏 目标 增强 现实 可 以 帮助 探索 。 寻 路 立足 于 直接 将 路 线 琶 加 在 一 个 以 自我 为 中 心 的 增强 现 
实 视图 或 在 决策 点 帮助 用 户 。 增 强 现实 也 可 以 用 来 提供 各 种 线索 帮助 用 户 调 整 视点 ， 从 而 可 
以 观察 到 目标 对 象 ， 或 者 获得 给 定 的 视图 。 多 视角 接口 可 以 通过 分 割 屏 幕 或 层 芋 屏幕 中 的 空 
间 组 合 ， 或 是 从 一 个 视角 到 下 一 个 视角 的 过 渡 来 提供 概要 和 细节 
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体验 增强 环境 。 增 强 现实 确实 为 协作 提供 了 独特 的 机 会 : 在 同 地 情况 下 ， 即 多 个 用 户 同时 处 
于 同一 地 点 ， 增 强 现 实 能 够 提供 关于 用 户 正在 讨论 的 实际 物体 的 附加 信息 。 远 程 协作 连接 了 
不 能 处 于 同一 地 点 的 用 户 ， 增 强 现实 可 用 于 辐 某 用 户 传 达 另 一 用 户 想 要 分 享 的 信息 ， 同 时 不 
打上 断 该 用 户 在 真实 环境 中 的 体验 。 

两 种 共享 方式 都 有 显著 的 潜力 来 增强 协作 [Lukosch et al. 2015]。 本 章 将 更 加 深入 地 分 析 
增强 现实 用 作协 作 技 术 时 的 技术 和 设计 方案 。 我 们 描述 了 协作 型 增强 现实 系统 的 性 质 ， 关 注 
其 物理 、 技 术 方 面 以 及 相关 的 人 为 因素 。 基 于 以 上 考虑 ， 我们 描述 了 同 地 协作 和 远程 协作 的 
De 


12.1 协作 系统 特性 


计算 机 支持 的 协同 工作 (CSCW) 不 局 限于 增强 现实 ， 它 能 够 依赖 于 任何 基于 计算 机 的 
媒介 形式 。 一 种 被 广泛 接受 的 CSCW 分 类 采用 了 2 x 2 的 分 类 方法 ， 一 方面 通过 协作 的 时 间 
特性 划分 ， 另 一 方面 根据 协作 的 空间 特性 划分 [Rodden 1992]。 在 时 间 维 度 上 ， 协 作 包 含 多 
用 户 同步 (在 同一 时 间 ) 或 异步 (在 不 同 的 时 间 ， 因 此 互相 独立 ) 的 情况 。 在 空间 维度 上 ， 
用 户 既 可 以 是 同 地 的 (在 相同 地 点 )， 也 可 以 是 远程 的 (在 不 同 地 点 )。 最 终 ， 这 种 2 x 2 的 分 
类 履 关 了 许多 种 可 能 的 协作 形式 〈 见 表 12.1 )。 


表 12.1 增强 现实 相关 的 计算 机 支持 的 协同 工作 分 类 


同 地 远程 
同步 增强 现实 远程 呈现 
异步 增强 现实 注释 或 浏览 ( 原 地 ) 通用 共享 


增强 现实 是 一 种 交互 性 媒介 ， 所 以 很 自然 地 首先 被 应 用 于 同步 协作 以 提升 协作 者 在 同一 
时 间 的 交互 。 增 强 现 实 共 享 空 间 提高 了 同 地 协作 : 合作 者 处 于 同一 空间 ， 通 过 增强 现实 显示 
用 空间 注册 信息 提高 协作 体验 。 与 之 相对 ， 增 强 现实 远程 呈现 让 用 户 体验 实时 的 远程 场景 。 
异步 增强 现实 的 应 用 相对 较 少 。 这 个 类 别 中 最 重要 的 应 用 案例 是 一 个 用 户 先 对 一 个 真实 
环境 进行 注释 ， 然 后 男 一 个 用 户 在 同一 地 点 进行 场景 浏览 或 注释 编辑 。 此 应 用 可 以 被 理解 为 
一 种 虚拟 涂鸦 。 注 释 活 动 发 生 在 相同 地 点 ( 即 同 地 ),， 但 不 是 相同 时 间 。 增 强 现实 内 容 的 异 
步 远程 共享 比较 容易 实现 ， 但 不 局 限于 增强 现实 应 用 。 这 样 的 方法 可 以 用 于 其 他 任何 应 用 类 
型 ， 只 要 多 于 一 名 用 户 对 同一 内 容 感 兴趣 并 且 需 要 异步 发 送信 息 和 通知 。 
在 同步 协作 活动 中 ， 我 们 可 区 别 交 流 空 间 和 任务 空间 [Kiyokawa et al. 2002]. 
e 交流 空间 是 指 用 户 交 换 信息 的 空间 。 在 交流 中 ， 需 要 用 户 能 够 很 好 地 看 到 和 上 听 到 对 
方 。 通 篆 进 行 对 话 的 人 会 看 着 对 方 的 脸 并 观察 其 胶体 语言 。 同 地 场景 下 的 交流 空间 
并 不 需要 技术 文 持 。 与 之 相对 ， 为 远程 协作 者 搭建 交流 空间 是 所 有 通信 系统 的 首要 
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目标 。 
o 任务 空间 是 真正 进行 工作 的 空间 。 一 个 真实 的 任务 空间 包含 物理 对 象 ， 而 虚拟 的 任 
务 空间 包含 数字 信息 〈 三 维 及 非 三 维 )。 
交流 空间 和 任务 空间 的 区 分 越 明 显 ， 在 交流 和 执行 任务 之 间 的 切换 就 越 困难 [Ishii et al. 
1994]。 例 如 考虑 两 位 用 户 共 吾 一 个 办 公 室 的 场景 ， 他 们 的 个 人 人 台式 电脑 屏幕 朝 痢 相反 的 方 
器。 这 两 位 同事 必须 在 相互 交谈 和 观看 他 们 各 目的 屏幕 ( 男 一 位 用 户 不 能 直接 观察 到 对 方 的 
屏幕 ) 之 间 切 换 。 虽 然 他 们 共存 于 同一 空间 ， 但 是 仅 能 通过 间接 方法 来 指 代 一 项 共同 的 任 
务 ， 除 非 他 们 一 起 来 到 同一 显示 僚 前 。 同 地 场景 缺乏 统一 的 任务 和 交流 空间 的 问题 可 以 通过 
非 技术 性 方法 〈 例 如 聚集 在 一 个 显示 需 周 围 ) 或 者 技术 性 方法 〈 例 如果 面 协作 软件 ) 来 解决 ; 
但 是 在 远程 场景 中 必须 用 技术 性 方法 来 解决 。 如 果 这 个 例子 中 两 位 同事 在 不 同 的 办 公 楼 内 工 
VE, 他们 必须 依靠 手机 等 通信 方法 。 以 上 考虑 市 来 了 一 系列 协作 场景 (ULE 12.2 )。 


表 12.2 用 于 协作 的 交流 和 任务 空间 分 类 


交流 空间 案例 
同 地 课堂 教学 
辣 地 在 同一 台式 电脑 上 共同 工作 
远程 视频 会 议 
ae FA ATER A IRL 
同 地 下 一 场 真实 的 棋 类 游戏 
同 地 共享 空间 
远程 ”| 真实 | 是 远程 呈现 


增强 现实 拥有 “混合 ”性 质 ， 在 统一 空间 场景 中 具有 优势 : 一 个 共享 空间 结合 了 一 个 本 
地 (这 里 指 真实 ) 交流 空间 与 一 项 虚拟 任务 。 一 个 远程 呈现 系统 结合 了 一 个 远程 (这 里 指 虚 
拟 ) 交流 空间 与 一 项 只 实 任务 。 


12.2 同 地 协作 


在 共享 空间 内 ， 虚 拟 的 增强 内 容 可 以 安排 在 同 地 用 户 之 间 [Butz et al. 1999] [Benko et al. 
2014]。 如 果 共 享 空间 内 存在 真实 物体 ， 增 强 现 实 使 得 协作 者 能 够 用 附加 的 虚拟 信息 注释 这 
些 物体 ， 每 一 个 用 户 都 能 够 进行 操作 。 如 果 只 存在 虚拟 物体 ， 用 户 仍 然 能 在 相同 位 置 感知 到 
它们 。 例 如 在 同时 含有 真实 和 虚拟 物体 的 环境 中 进行 指向 一 个 特定 物体 的 简单 对 话 行为 。 

我 们 可 以 通过 使 用 共享 空间 的 方式 来 区 分 协作 型 应 用 。 大 致 有 三 种 空间 上 的 分 类 。 第 
一 ， 用 户 可 以 保持 (相对 地 ) 静止 。 第 二 ， 用 户 可 以 移动 ， 但 只 在 一 个 有 限 的 空间 内 。 第 三 ， 
用 户 可 以 探索 一 个 更 大 的 区 域 。 

让 用 户 保持 静止 的 应 用 的 主要 优势 是 跟踪 可 以 被 限制 在 一 个 小 的 工作 范围 内 ， 而 且 也 容 
易 将 协作 伙伴 保持 在 视野 里 。 已 经 出 现 了 几 个 用 于 三 维 数据 协作 性 检查 的 应 用 ， 这 些 应 用 使 
用 了 简单 的 静态 设置 。 这 些 系统 的 可 用 性 体现 在 可 以 共同 观察 和 讨论 虚拟 模型 这 一 事实 。 

Fuhrmann 等 人 [1998] 描述 了 一 个 用 于 探索 代表 复杂 动态 系统 三 维 表面 的 系统 ( 见 图 
12.1 )。 他 们 注意 到 相 比 于 基于 屏幕 的 展示 ， 在 该 系统 中 用 户 更 加 专注 于 理解 三 维 结构 。 

Kato 等 人 [2000] 描述 了 一 项 增强 现实 记忆 游戏 。 一 旦 的 开 上 面 有 标识 的 卡片 ， 将 会 显 
示 一 个 三 维 模型 。 当 两 张 匹 配 的 卡片 靠近 时 ， 通 过 一 个 特殊 的 动画 告知 用 户 这 两 张 卡 片 是 一 
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对 (WL 12.2 )。 标 识 的 识别 在 每 个 用 户 闪 独立 执行 。 由 于 匹配 卡片 是 预先 确定 的 ， 所 以 特 
殊 动 画 的 触发 也 是 确定 的 。 换 和 句 话 说 ， 该 协作 活动 不 需要 用 户 系 统 之 间 有 网 络 连接 。 


View HMD#2 





图 12.1 -THES HRA, AP REE eK ak iba HE ee Poe Pas 
的 数学 可 视 化 的 个 人 视图 (由 Anton Fuhrmann HE, MEIA) 





图 12.2 佩戴 头 戴 式 显示 融 的 用 户 进行 协作 型 记忆 游戏 (由 Mark Billinghurst 提供 ) 


Kaufmann 和 Schmalstieg [2003] 搞 述 了 Construct3D ， 这 是 一 个 专门 为 数学 和 几何 教学 
设计 的 三 维 几 何 构 造 工 具 ( 见 图 12.3 )。 其 主要 RETENAR ] 能 力 并 将 学 习 迁 移 
最 大 化 的 系统 。 价 助 增强 现实 系统 ， 学 生 们 能 够 真正 地 围绕 三 维 物 体 走动 ， 这 些 三 维 物 体 是 
他 们 需 要 事先 计算 并 用 传统 方法 (大 多 数 是 纸 和 笔 ) 构造 的 。 





图 12.3 ”几何 教学 受益 于 可 在 三 维 空间 探索 几何 构造 的 能 力 。 图 中 两 名 学 生 正 努力 解决 
一 个 切面 问题 (由 Hannes Kaufmann 提供 ) 


240 B12F 


因为 系统 有 文 持 显示 个 人 视图 的 能 力 ， 基 于 Construct3Dm， 老 师 们 和 学 生 们 可 以 被 设 
定 为 不 同 的 角色 。 比 如 ， 系 统 可 以 问 老 师 显示 一 道 习 题 的 预先 计算 好 的 解答 ， 但 是 学 生 们 看 
不 见 。 学 生 们 只 能 看 见习 题 的 原始 描述 和 他 们 各 目的 工作 《但 没有 别 的 学 生 的 工作 )。 

一 些 系统 让 会 议 昌 六 的 用 户 在 讨论 一 项 设计 评审 时 佩戴 头 戴 式 显示 絮 。 例 如 ，EMMIE 
[Butz et al. 1999], SeamlessDesign [Kiyokawa et al. 1999], MagicMeeting [Regenbrecht et al. 
2002] 以 及 ARTHUR [Broll et al. 2004] 均 使 得 用 户 能 够 检查 建筑 或 机 械 模型 。 

一 项 较 新 的 案例 是 Mano-a-Mano [Benko et al. 2014]， 为 用 户 建立 了 面对面 、 无 器 件 的 
交互 方式 ， 通 过 基于 多 投影 机 -摄像 机 系统 (运用 Kinect 深度 相机 ) 的 动态 空间 投影 ， 用 户 
能 够 在 一 个 房间 内 目 由 移动 ， 系 统 在 协作 用 户 之 间 泻 染 了 具有 正确 透视 关系 的 三 维 增强 。 


12.2.1 个 人 显示 背 与 视图 


在 真实 世界 的 任务 中 协作 不 是 一 项 统一 的 活动 ， 其 中 参与 者 在 近 上 距离 交互 下 一 起 连 
续 地 工作 。 与 之 相对 ， 个 人 的 工作 阶段 与 共享 和 讨论 工作 结果 阶段 交替 进行 [Gutwin and 
Greenberg 2000]。 因 此 ,一 个 协作 环境 必须 既 支 持 个 人 也 支持 群体 工作 ， 这 就 需要 显示 右 和 
视图 来 解决 个 人 需求 。 

个 人 显示 需 不 仅 可 以 提供 每 个 用 户 的 个 人 视点 ， 而 且 能 让 部 分 用 户 看 到 其 他 用 户 看 不 
到 的 对 象 或 信息 。 将 头 戴 式 显示 需 用 作 个 人 观看 装置 能 够 让 用 户 在 虚拟 对 象 上 设 定 个 人 立 
体 视 点 。 这 种 能 力 对 于 场景 中 对 象 的 几何 形状 和 分 布 起 作用 的 情况 尤其 有 益 。 虚 拟 对 象 可 
以 出 现在 任意 位 置 ， 比 如 在 空气 中 或 者 在 会 面 参 与 者 之 间 的 桌面 上 ， 因 此 可 以 支持 方便 的 
任务 空间 。 

和 头 戴 式 显示 嚣 相似， 手持 显 示 吕 也 是 个 人 观看 装置 。 原 理 上 一 个 手持 设备 可 以 被 多 个 
用 户 同 时 观看 ， 在 某 种 程度 上 上 比 头 戴 式 显 示 器 少 了 一 点 隐私 性 。Rekimoto [1996] 的 早期 工 
作 展 示 了 借助 附 有 摄像 机 的 移动 电脑 显示 器 的 手持 增强 现实 协作 型 应 用 。 小 屏幕 并 不 适用 于 
同时 观看 ， 而 且 考 虑 到 每 个 用 户 都 拥有 个 人 设备 ， 用 户 更 倾向 于 看 他 们 自己 的 屏幕 而 不 是 共 
享 屏 幕 [Morrison et al. 2011]。 和 幸运 的 是 ， 智 能 手机 等 手持 设备 价格 不 高 ， 为 工作 群 组 中 的 
每 一 名 成 员 提 供 个 人 设备 在 经 济 上 是 可 行 的 。 

作为 备 选 ， 大 斥 才 的 屏 才 或 者 投影 显示 是 更 受 欢 迎 的 呈现 虚拟 物体 的 方法 。 这 样 的 协作 
型 虚拟 现实 显示 需 可 被 看 作 是 一 种 受 限 的 增强 现实 显示 需 ， 其 中 真实 世界 《偶尔 看 回 协 作者 
的 视图 ) 通过 虚拟 现实 显示 硕 所 呈现 的 虚拟 内 容 补充 。 依 助 轻型 快门 式 眼 镜 观 看 的 立体 显示 
提供 了 一 定 程度 上 的 相互 目光 感知 和 眼神 接触 。 但 是 这 些 显示 上 需 不 能 产生 虚拟 物体 对 真实 物 
体 的 遮挡 效果 ， 同 时 传统 的 立体 显示 需 不 能 将 正确 的 立体 图 像 呈 现 给 多 个 用 户 。 将 观察 点 独 
立 的 立体 图 像 呈 现 给 多 个 被 跟踪 的 用 户 需 要 特殊 显示 器 ， 这 既 可 以 通过 时 分 [Agrawala et al. 
1997] 复 用 实现 ， 也 可 以 通过 空 分 [Kitamura et al. 2001][Bimber et al. 2005][Ye et al. 2010] 复 
用 实现 。 即 使 基于 结合 时 分 和 偏振 多 路 复 用 的 最 新 进展 已 经 可 以 支持 6 个 用 户 ， 这 类 显示 费 
文 持 的 用 户 数 一 般 被 限制 在 少 于 或 等 于 4 [Kulik et al. 2011]。 

多 种 显示 类 型 是 可 以 结合 的 。 例 如 ， 用 于 考古 的 视觉 交互 工具 (VITA) 系统 [Benko et 
al. 2004] 让 一 组 用 户 探究 一 次 考古 发 气 中 记录 的 数据 。VITA 可 以 在 一 个 投影 显示 融 上 呈现 
发 掘 地 点 的 概况 ， 同 时 一 个 沉浸 式 头 戴 式 显示 器 将 另 一 名 用 户 投射 在 发 掘 地 点 。 增 强 现 实 
能 人 够 通过 在 物体 被 拖 出 或 者 放 人 不 同 种 类 和 尺寸 的 真实 显示 器 时 将 物体 可 视 化 [Butz et al. 
1999][Rekimoto and Saitoh 1999]， 在 不 同 显示 靛 之 间 建 立 联 系 。 当 投影 机 被 用 来 在 真实 世界 
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中 显示 信息 时 [Raskar et al. 2001][Piper et al. 2002]， 信 息 显 示 被 约束 在 一 个 物理 表面 ， 这 限 
制 了 能 被 显示 的 增强 现实 内 容 的 种 类 。 与 之 相 比 ， 用 于 头 部 跟踪 用 户 的 视点 相关 泻 染 能 够 关 
生 真 实 的 三 维 图 像 ， 看 起 来 似乎 是 在 表面 之 上 [Jones et al. 2014]. 

魔法 书 是 另 一 项 运用 了 多 种 类 型 显示 器 的 协作 性 体验 [Billinghurst et al. 2001]， 它 以 立 
体 书 的 风格 布置 了 基准 标识 点 ， 是 一 个 让 用 户 能 够 观察 增强 书页 的 界面 。 魔 法 书 使 用 头 戴 式 
显示 需 作 为 观察 装置 ， 可 供 多 用 户 观 看 。 该 魔法 书 的 特点 是 用 户 可 以 选择 飞信 书 中 ， 从 增 
强 现 实 视图 切换 至 沉浸 式 虚 拟 现实 视图 。 一 个 用 户 可 以 飞 入 书 中 ， 设 定 为 以 自我 为 中 心 的 
视角 ， 而 其 他 用 户 停留 在 外 面 ， 设 定 为 以 外 部 为 中 心 的 视角 。 用 户 可 以 互相 看 到 对 方 的 化 
身 一 一 天 空中 的 大 头 代 表 虚 拟 现实 用 户 ， 而 魔法 书 中 玩偶 大 小 的 化 身 代 表 增 强 现 实用 户 。 

有 时 ， 需 要 给 用 户 提供 一 定 程 度 的 隐私 。 人 例如， 用户 可 能 想 要 隐藏 个 人 信息 ， 或 者 可 能 
不 希望 分 享 未 完成 的 工作 。 如 果 多 用 户 共 至 一 个 真实 显示 器 ， 那 么 就 不 可 能 在 其 他 用 户 前 隐 
藏 对 象 。 作 为 工作 区 的 显示 空间 可 分 为 多 个 区 域 一 一 一 个 用 于 协作 性 视图 的 公共 区 域 以 及 多 
个 只 供 个 人 用 户 使 用 的 私人 区 域 。 这 种 情况 下 需要 社交 判断 力 来 避免 妨碍 其 他 用 户 。 

一 个 更 好 的 解决 方案 可 以 是 让 用 户 明 确 地 公开 信息 或 稍 后 撤回 。Butz 等 人 [1998] 展示 

了 如 何 通 过 配置 每 个 用 户 的 显示 带 来 检测 并 操控 共享 空间 内 对 和 象 的 隐私 状态 CULPA 12.4 )。 
例如 ， 吸 血 鬼 之 镜 只 反射 公开 可 见 的 对 象 。 隐 私 灯 可 被 放置 在 一 组 对 象 之 上 ， 被 灯光 照 到 的 
物体 会 在 公众 视野 中 被 隐藏 。 





图 12.4 ”吸血鬼 之 镜 中 选中 的 物体 (笔记 本 和 录像 融 图 标 ) 被 隐藏 (由 Andreas Butz 和 
哥伦比亚 大 学 提供 ) 


12.2.2 目光 感知 


在 协作 型 应 用 中 使 用 头 戴 式 显示 费 的 一 个 重要 局 限 是 其 他 用 户 可 以 被 感知 的 程度 。 在 视 
频 透 视 式 头 戴 显示 器 中 ， 真 实 环 境 的 视觉 质量 不 可 能 等 于 用 户 对 真实 世界 的 直接 感知 ， 所 以 
用 户 对 环境 中 其 他 人 的 体验 被 极 大 地 削减 了 ， 这 在 一 定 程 度 上 影响 交流 。 此 外 ， 头 戴 式 显示 
器 的 面 单 阻碍 了 直接 的 目光 接触 。 相 比 之 下 ， 光 学 透射 式 头 戴 显示 器 提供 了 对 真实 世界 的 正 
常 感知 以 及 一 定 程度 的 目光 接触 ， 但 通常 所 泻 染 的 虚拟 物体 是 半 透 明 的 ， 对 比 度 较 低 。 

已 有 一 些 人 研究 工作 致力 于 为 佩戴 头 戴 显 示 需 的 用 户 恢复 目光 感知 。 在 Miyasato[1998] X 
于 目光 透 过 式 头 戴 式 显示 器 的 工作 中 ， 头 戴 显 示 器 中 朝 癌 面 部 的 摄像 机 观察 用 户 的 眼睛 并 将 
其 呈现 在 安装 于 头 戴 显示 器 前 面 的 小 屏幕 上 。Takemura 和 Ohta[2002] 展现 了 一 种 将 用 户 面 
部 以 虚拟 物体 的 方式 到 加 在 头 戴 式 显示 侣 上 的 演 染 方式 。Tateno 等 人 [2005] Ñ tE A 
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化 的 眼睛 改进 了 目光 交流 。 

除了 目光 的 直接 重建 ， 添 加 关于 目光 方向 的 合成 提示 也 是 可 能 的 。Kiyokawa 等 人 [1998] 
提出 的 一 种 简单 方法 是 从 用 户 眼 睛 沿 着 观察 方向 泻 染 一 条 线 。 该 方法 对 观察 方 稀 进行 了 明 
确 表征 ， 用 户 不 再 需要 看 着 协作 者 的 脸 。 其 他 可 能 的 表征 方法 包括 圆锥 体 或 者 截 头 椎 体 
[Mogilev et al. 2002]。 有 眼 动 仪 的 使 用 使 得 估算 观察 方向 有 了 进一步 改善 的 可 能 [Novak et al. 
2004]. 


12.23 ”共享 空间 内 的 敏捷 协作 


通过 仔细 优化 ， 可 以 在 小 区 域内 实现 依赖 于 用 户 相 对 快速 移动 的 共享 空间 经 历 。 该 优势 
在 游戏 中 最 为 明显 。 一 个 早期 案例 是 AR?Hockey [Ohshima et al. 1998]， 这 是 在 一 张 真 实 的 
桌子 上 的 双人 空中 曲棍球 游戏 ,但 使 用 的 是 虚拟 球 。Szalavari 及 其 同事 [1998] 介绍 了 一 个 
协作 型 共享 空间 的 增强 现实 环境 ， 使 用 了 被 跟踪 的 头 戴 式 显 示 器 和 手持 道具 “ RV 边境 守 
TE” [Ohshima et al. 1999] 让 用 户 扮演 太空 时 代 的 士兵 ， 用 激光 枪击 退 外 星人 。Henrysson 等 
人 [2005] 描述 了 一 个 增强 现实 乒乓 球 游戏 ， 两 个 用 户 用 智能 手机 进行 游戏 ， 他 们 之 间 的 时 
子 上 放置 有 基准 标识 。 在 此 应 用 中 ， 智 能 手机 同时 用 作 观 察 设 备 和 球 提 。 

“隐形 火车 ”[Pintaric et al. 2005] 是 第 一 个 部 署 于 无 线 手持 电脑 上 的 协作 型 增强 现实 洲 
戏 。 在 游戏 中 ， 用 户 控 制 多 列 行驶 于 木 制 铁路 轨道 网 络 上 的 虚拟 玩具 火车 ( 见 第 1 章 中 的 图 
1.11 )， 目 的 是 及 时 转换 道岔 以 防止 火车 碰撞 (或 者 换 一 种 方式 说 ， 慎 重地 驱动 它们 )。 手 持 
电脑 为 用 户 提供 了 预先 不 可 见 的 灵活 性 和 敏捷 性 。 

移动 增强 现实 让 用 户 从 受 限 区 域 离开 ， 所 以 物理 移动 可 作为 互动 或 者 游戏 中 的 一 项 元 
素 。 用 户 在 移动 过 程 中 会 遇 到 其 他 人 的 事实 从 真实 世界 重新 引入 了 社交 因素 ， 但 是 如 果 用 户 
必须 待 在 一 个 小 工作 空间 内 会 失去 这 些 因素 。 这 种 社交 漫游 行为 的 一 个 早期 案例 是 “海盗 ”， 
虽然 它 不 是 一 项 严格 的 增强 现实 应 用 [Bjork et al. 2001]。 游 戏 利用 近 距 离 传感器 确定 一 个 用 
户 的 手持 电脑 已 经 进入 一 个 特定 区 域 ， 或 者 两 个 海盗 距离 足够 近 可 以 进行 一 场 海战 。 该 游戏 
在 一 个 比较 大 的 区 域 进行 ， 例 如 一 个 会 议 中 心 大 厅 。 新 加 坡 国立 大 学 的 研究 者 们 开发 了 一 系 
列 游戏 ， 玩 家 移动 的 区 域 更 大 [Cheok et al. 2002, 2003]. Niantic 实验 室 “ Ingress”[2012] 
等 游戏 甚至 将 增强 现实 的 概念 结合 到 世界 范围 的 太 寸 上 。 

Mulloni 等 人 [2008] 描述 了 一 个 基于 位 置 的 增强 现实 游戏 一 “奶牛 大 战 外 星人 ”， 用 
户 必 须 与 分 布 在 游戏 区 域内 的 基准 标识 卡 交互 ， 包 含 了 几 个 邻近 的 房间 和 走廊 。 在 游戏 中 ， 
用 户 必 须 设 法 将 他 们 的 奶牛 带 到 安全 的 地 方 ， 一 个 重要 的 游戏 元 素 是 用 户 要 在 其 他 玩家 之 前 
通过 自身 的 移动 访问 一 个 特定 的 基准 标识 点 ( 见 图 12.5 ) 。 

Morisson 等 人 [2011] 描述 了 用 于 增强 移动 地 图 的 协作 型 应 用 MapLens 系统 。 一 组 处 于 
户外 的 用 户 能 够 通过 他 们 的 智能 手机 在 纸 质 地 图 上 观察 增强 内 容 。 这 项 技术 在 一 组 三 个 玩家 
参与 的 寻 物 游戏 中 进行 了 现场 测试 。 通 过 大 量 观 察 ， 研 究 者 发 现 该 地 图 促进 了 一 种 场所 营造 
的 行为 ， 用 户 会 短暂 停留 并 围绕 着 地 图 聚 在 一 起 查看 增强 信息 OLA 12.6 )。 当 跟踪 技术 足 
够 鲁 棒 时 ， 这 些 停留 可 能 会 非常 短暂 ,但 是 对 于 作出 如 何 继续 行进 的 共同 决定 至 关 重 要 。 如 
果 组 中 的 每 一 个 用 户 都 有 一 部 个 人 智能 手机 ， 则 多 个 设备 可 以 并 行使 用 ， 但 通常 组 中 都 会 有 
一 个 主要 用 户 ， 主 要 通过 该 用 户 的 设备 与 增强 地 图 交互 。 
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图 12.5 在 “奶牛 大 战 外 星人 ”中 ， 一 个 玩家 试 着 通过 用 手 挡 住 对 手 设 备 上 的 摄像 机 来 
邱 慢 对 手 ， 阻 止 对 手 与 基准 标识 卡 交 互 (由 Alessandro Mulloni 提供 ) 


Win 





图 12.6 在 Maplens 里 使 用 增强 地 图 进行 协作 的 快照 ，Maplens 是 智能 手机 上 的 一 个 多 
人 户外 游戏 (由 Ann Morrison 提供 ) 


12.3 远程 协作 


在 显示 方面 ， 远 程 协作 与 同 地 协作 有 着 相对 的 特性 : 只 有 明确 需要 共享 和 同步 的 信息 才 
对 双方 都 是 可 见 的 。 这 项 限制 适用 于 所 有 虚拟 物体 ， 但 更 重要 的 是 远程 用 户 只 能 看 见 那些 被 
拍摄 并 传输 到 远程 位 置 的 用 户 真 实 环境 的 部 分 

以 虚拟 增强 物 为 特点 的 早期 远程 协作 案例 之 一 是 Myron Krueger 的 视频 啊 应 环境 ， 该 案 
例 于 1972 年 提出 ， 并 于 1974 年 到 20 世纪 90 年 代 之 间 在 多 个 典型 应 用 中 实施 。 最 初 作为 一 
个 通信 环境 被 设想 与 执行 ， 将 参与 者 的 轮廓 与 交互 性 计算 机 图 形 进 行 结合 

在 所 有 的 远程 协作 环境 中 ， 因 为 用 户 不 处 在 同一 地 点 ， 所 以 他 们 的 真实 情况 和 技术 能 力 
也 可 能 是 不 同 的 。 如 果 两 个 用 户 能 力 一 样 ， 他 们 的 结合 导致 对 称 协作 。 上 比如 在 对 等 会 议 中 ， 
两 个 用 户 可 能 都 有 一 部 智能 手机 。 非 对 称 配 置 通常 出 现在 远程 专家 场景 的 形式 中 ， 一 名 移动 
的 工人 被 安排 承担 维修 或 者 建造 任务 ， 与 此 同时 ， 一 名 远程 专家 给 出 建议 。 这 名 工人 可 能 需 
要 免 提 操作 并 且 只 用 到 轻巧 的 移动 硬件 ， 而 远程 专家 可 能 在 一 个 有 着 功能 更 强大 的 固定 硬件 
设备 的 控制 中 心里 操作 ， 比 如 带 有 大 尺寸 触 控 屏幕 的 台式 电脑 。 在 这 样 的 一 个 非 对 称 场景 
中 ， 远 程 专 家 拥有 的 额外 资源 应 被 用 来 提高 专家 的 情境 感知 ， 弥 补 专家 不 能 直接 感知 任务 地 
点 的 事实 。 
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12.3.1 视频 共享 


远程 协作 中 实时 传输 的 主要 模式 当然 要 属 视频 流 。 在 这 个 意义 上 ， 远 程 增强 现实 与 视频 
会 议 (或 者 其 拓展 ) 相似 。 在 视频 会 议 中 ， 只 有 在 摄像 机 视 场 中 的 人 和 物体 对 象 是 可 见 的 。 
如 果 摄 像 机 没有 覆盖 整个 工作 空间 ， 或 者 操作 摄像 机 的 用 户 没 有 指 回 远程 用 户 感 兴趣 的 位 
置 ， 则 交流 价值 就 会 减少 。 

专业 的 视频 会 议和 监控 系统 通过 使 用 多 个 摄像 机 来 取得 较 高 的 环境 履 盖 率 。 当 然 ， 这 个 
方法 导致 较 高 的 花费 : 必须 布置 摄像 机 ， 同 时 用 于 视频 流 的 网 络 带宽 随 着 摄像 机 的 增加 线性 
增长 。 大 多 数 应 用 (特别 是 移动 应 用 ) 可 以 在 单 摄像 机 条 件 下 工作 。 我 们 需要 将 这 个 摄像 机 
放置 在 使 其 功效 最 大 化 的 位 置 。 在 一 个 桌面 或 工作 台 的 静态 环境 中 ， 摄 像 机 可 能 被 放置 在 头 
顶 上 或 者 一 个 较 高 的 位 置 ， 俯 梧 整 个 区 域 。 

在 移动 应 用 中 ， 用 户 可 能 在 头 带 、 头 盔 或 者 颈 部 周围 佩戴 摄像 机 。 可 穿戴 摄像 机 将 摄像 
机 视 场 与 用 户 的 移动 耦合 在 一 起 。 因 此 ， 本 地 用 户主 动 决定 为 远程 用 户 传 输 环 境 的 哪 一 部 
分 。 远 程 用 户 可 能 给 出 反馈 ， 比 如 通过 一 个 音频 通道 来 引导 远程 用 户 到 达 目 标 位 置 。 远 程 用 
户 也 可 以 通过 调用 一 个 冻结 帧 或 者 快照 函数 来 从 视频 中 获得 一 张 显示 相关 区 域 的 静止 图 像 。 
这 样 的 操作 要 求 相 关 区 域 至 少 被 观看 一 次 。 此 外 ， 一 个 静止 帧 只 是 实时 视频 的 一 个 暂时 表 
征 ， 特 别 是 当 环 境 改 变 较 为 剧烈 的 时 候 。 

纯粹 的 视频 会 议 系 统 不 能 被 看 作 是 真正 的 基于 视频 的 增强 现实 ， 或 增强 虚拟 : 在 一 个 标 
准 的 视频 会 议 中 ， 没 有 注册 到 真实 世界 的 虚拟 物体 。 

然而 ， 视 频 会 议 系 统 可 以 很 容易 地 被 结合 或 转换 到 增强 现实 体验 中 。 一 个 方法 是 使 用 实 
时 纹理 映射 向 分 布 在 空间 中 的 多 边 形 (通过 基准 标志 等 进行 跟踪 的 [Kato et al. 2001]) 上 投 
影 二 维 录像 片段 [Billinghurst et al. 1998a] ， 可 能 带 有 参与 者 头 部 、 躯 干 或 者 从 背景 图 像 中 分 
割 出 来 的 轮廓 。Minatani 等 人 [2007] 开发 了 一 个 专门 用 于 增强 现实 中 面对面 的 果 面 远程 协 
作 系 统 。 他 们 的 方法 运用 了 视频 纹理 映射 ， 但 依赖 于 单个 变形 的 公告 板 ， 通 过 塑 形 公 告 板 使 
得 在 桌面 就 坐 的 用 户 能 够 被 一 块 公告 板 最 优 地 表示 出 来 ; RTL, FP AaB. ES. FPA 
变形 的 公告 板 之 间 的 深度 差 是 最 小 的 。 

我 们 可 以 将 视频 图 像 当 作用 户 可 以 绘图 的 画板 ， 通过 鼠标 或 者 触摸 屏 年 在 图 像 空间 内 添 
加 更 多 的 增强 内 容 。 只 要 视频 是 静止 的 (要 求 戴 着 摄像 机 的 用 户 站 着 不 动 )， 就 可 以 通过 很 少 
的 技术 工作 来 绘制 动态 的 增强 内 容 。 所 有 需要 做 的 就 是 在 反馈 通道 为 其 他 用 户 传输 绘制 更 新 。 

一 个 有 用 的 拓展 是 全 景 图 的 应 用 。 在 第 4 章 中 ,我 们 介绍 了 用 户 如 何 通 过 站 在 一 个 位 置 
四 处 观看 并 旋转 摄像 装置 来 获得 全 景 视图 。Chili[Jo and Hwang 2013] 通过 电话 内 置 传 感 需 
的 低 成 本 方向 跟踪 技术 来 获取 旋转 角 并 将 其 附加 在 传输 的 视频 帧 上 。 该 方法 在 全 景 空 间 内 提 
供 了 空间 参照 。LiveSphere[Kasahara et al. 2014] 采用 一 个 头 戴 式 全 回 摄 像 机 来 传输 完整 的 全 
景 视 频 ; 在 使 用 这 一 系统 时 ， 远 程 用 户 的 观看 方向 与 本 地 摄像 机 移动 无 关 ， 但 是 需要 一 个 特 
殊 的 摄像 器 件 。Miiller 等 人 [2016] 描述 了 如 何 通过 在 远程 用 户 的 手机 上 将 标准 移动 电话 的 
视频 流 实 时 拼接 来 构建 全 景 图 。 通 过 将 屏幕 上 的 绘制 注册 到 全 景 加 上， 产生 了 一 种 简单 但 有 
效 的 协作 型 增强 现实 的 形式 。 


12.3.2 包含 虚拟 物体 的 视频 共享 


包含 虚拟 物体 的 增强 现实 视频 会 议 系统 依靠 传统 的 视频 会 议 环 境 ， 通 过 网 络 传输 实时 视 
频数 据 及 处 理 视 频 ， 以 添加 多 种 形式 的 增强 现实 信息 。Barakonyi 等 人 [2004a] 开发 了 一 个 
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增强 现实 系统 ， 将 远程 参与 者 显示 在 一 个 二 维 窗口 中 。 用 户 可 以 在 场景 中 添加 被 跟踪 的 三 维 
物体 ， 通 过 标志 进行 操控 。 一 个 参与 者 的 典型 视图 由 两 个 窗口 组 成 。 一 个 窗口 显示 本 地 用 户 
的 镜像 ， 人 允许 其 控制 与 手持 标志 的 交互 。 男 一 个 窗口 显示 远程 参与 者 。 该 视频 会 议 应 用 不 仅 
可 以 传输 视频 ， 同 时 又 可 以 在 远程 端 共 吾 跟 踊 信 息 和 三 维 模型 的 状态 ( 见 图 12.7 )。 这 种 方 
法 使 得 两 妆 都 可 以 显示 同样 的 、 含 有 真实 和 虚拟 元 素 的 增强 现实 视图 。 












标志 点 信息 
A ne 跟踪 /输入 数据 跟踪 / 输入 
fan — 数据 处 理 器 数据 处 理 器 
ies 一 视频 / 音频 m 视频 / 音频 
时 编码 器 饮 频 、 首 频 编码 器 
< 视频 / 音频 


解码 器 
远程 会 议 窗口 
(被 动 的 ) 

共享 应 用 | = 
i 更 新 ,| 本 地 会 议 窗口 
图 12.7 ”增强 现实 视频 会 议 应 用 的 系统 概况 。 除 了 视频 流 ， 每 一 病 共 享 从 视频 流 中 提取 
出 来 的 跟踪 信息 并 将 其 更 新 至 一 个 共享 场景 代表 中 。 这 使 得 两 端 均 能 以 可 能 的 
最 高 质量 进行 本 地 的 增强 现实 渲染 与 合成 (由 Istvan Barakonyi 提供 ) 


本 地 会 议 窗口 
(主动 的 ) 
远程 会 议 窗口 
(被 动 的 ) 









作为 一 个 应 用 案例 ，Barakonyi 等 人 [2004a] 讨论 了 一 名 医师 向 同事 咨询 一 个 医学 数据 集 
的 情景 ( 见 图 12.8 )。 体 数据 的 实时 演 染 是 计算 密集 型 的 工作 ， 并 且 由 于 压缩 失真 ， 将 演 染 


的 结果 作为 视频 传送 也 不 理想 。 在 每 一 端 进行 本 地 的 体 演 染 后 ， 将 结果 和合 加 到 视频 图 像 上 ， 
则 产生 了 理想 的 效果 。 





图 12.8 两 位 医师 能 够 通过 将 增强 现实 视频 会 议 同 本 地 医学 数据 集 的 快速 体 泻 染 相 结合 
来 进行 协作 (由 Istvan Barakonyi 提供 ) 


Yamamoto 等 人 [2008] 建议 将 增强 现实 视频 协作 从 纯粹 的 虚拟 物体 拓展 到 称 之 为 可 触摸 
复制 品 的 真实 物体 。 通 过 这 一 方法 ， 两 个 用 户 接 触 到 完全 一 致 的 被 跟 踊 物体 。 对 其 中 一 个 复 
制品 进行 操作 也 会 改变 男 一 个 。 然 而 许多 协作 场景 并 没有 提供 提前 知道 会 需要 哪些 物体 的 条 
件 ， 因 此 限制 了 这 个 方法 的 普 适 性 。 
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12.3.3 包含 几何 重建 的 视频 共享 


如 果 大 视 场 或 全 景 视 频 不 足以 建立 远程 用 户 的 空间 意识 ， 可 以 考虑 一 种 包含 几何 重建 的 
视频 共享 方法 。 第 4 章 中 已 经 介绍 了 同时 定位 与 地 图 构建 (SLAM)， 可 以 通过 单 目 视频 生成 
三 维 场景 表征 。 另 一 个 解决 方案 是 运用 单个 或 多 个 深度 传感器 更 加 快速 稳定 地 进行 几何 结构 
的 捕获 。 这 一 功能 对 于 用 户 身 体 等 移动 的 对 象 尤 其 有 用 ， 仅 赁 单 目 SLAM 技术 无 法 高 质量 
地 捕捉 这 些 对 象 。 

通过 多 年 的 努力 ， 如 今 已 经 可 以 比较 轻松 地 用 深度 传 感 带 捕捉 几何 模型 了 7。 由 Jaron 
Lanier[2001] 指导 的 国家 远程 沉浸 计划 为 最 初 的 八 所 以 及 后 来 的 四 所 研究 型 大 学 提供 了 资 
助 ， 在 三 年 的 时 间 内 (1997 ~ 2000) 推动 了 非 营 利 研 究 集 团 Internet2 的 网 络 工 程 研究 。 
该 计划 将 现 有 的 研究 工作 结合 到 远程 沉浸 式 协 作 中 ， 包 括 未 来 办 公 室 的 愿景 [Raskar et al. 
1998]， 并 于 2000 年 进行 了 研究 示范 ， 通 过 三 维 重 建 与 三 维 增强 的 跟踪 交互 式 混合 现实 技 
术 ， 连 接 了 北 卡 罗 来 纳 大 学 教堂 山 分 校 、 费 城 的 宾夕法尼亚 大 学 以 及 纽约 阿 蒙 克 高 级 网 络 与 
服务 分 部 的 办 公 室 。 虽 然 该 研究 示范 是 通过 特定 的 硬件 与 软件 实现 的 ， 但 它 代 表 了 朝 着 支持 
同类 体验 的 可 负担 的 商用 部 件 的 重要 概念 验证 。 

通过 将 几何 重建 与 视频 共享 相 结合 所 产生 的 系统 中 ， 远 程 用 户 能 够 在 重建 的 环境 中 导航 
并 设 定 任 意 视 点 ， 不 受 本 地 用 户 当 前 视点 的 限制 。 注 释 的 绘制 可 直接 在 重建 的 几何 表面 上 进 
行 ， 使 得 提供 给 另 一 用 户 的 反馈 与 视点 无 关 。 

Reitmayr 等 人 [2007] 讨论 了 一 个 早期 的 采用 这 一 思路 的 系统 。 该 系统 中 一 个 这 有 移动 
增强 现实 设备 的 工人 问 远 程 专家 传输 视频 。 不 同 于 工人 的 移动 计算 机 ,远程 专 家 的 工作 站 有 
足够 的 计算 能 力 ， 可 以 从 接收 到 的 视频 中 进行 SLAM 重建 。 远 程 专家 可 以 在 视频 流 中 接收 
并 注释 物体 。 注 释 附 加 于 点 、 圆 盘 以 及 长 方形 等 由 SLAM 算法 识别 的 简单 几何 形状 上 。 只 
有 工人 摄像 机 坐标 系 中 的 注释 需要 作为 反馈 发 送 ， 从 而 可 以 被 县 加 在 工人 的 视频 流 上 。 

Lee 和 Höllerer[2006] 提出 了 一 种 视频 会 议 中 移动 摄像 机 实时 视频 的 稳 像 方法 。 该 方法 
通过 跟踪 视频 流 中 的 二 维特 征 构 建 增 强 现实 视图 并 估算 视频 中 可 见 的 主 平面 的 单 应 。 本 地 和 
远程 的 参与 者 均 可 以 对 这 样 一 个 平面 物理 会 面 空间 进行 注释 ， 即 使 视点 在 一 定 程 度 上 有 所 改 
变 ， 在 该 空间 内 的 注释 是 静止 的 。 

由 Gauglitz 等 人 [2014a] 开发 的 远程 协作 系统 使 用 一 个 SLAM 系统 来 识别 环境 中 特 
征 上 总 的 三 维 位 置 。 通 过 从 估算 的 摄像 机 视点 投影 视频 关键 帧 将 特征 点 三 角 化 并 进行 纹理 
上 映射。 最 终 的 三 维 模型 在 几何 上 是 粗糙 的 ， 但 在 视觉 上 细致 地 表征 了 工作 者 的 环境 ( 见 图 
12.9 ) 。 远 程 专 家 能 够 从 任意 视点 观看 模型 并 用 一 个 触 控 屏 对 其 进行 注释 [Gauglitz et al. 
2014b]。Adcock 等 人 [2013] 和 Sodhi 等 人 [2013a] 开发 的 系统 运用 深度 传感器 重建 环境 ， 
让 远程 专家 几乎 可 以 立刻 获取 一 个 可 用 的 几何 模型 。 他 们 运用 了 一 个 几乎 无 法 在 户外 工作 
的 Kinect 传感器 。 

Maimone 和 Fuchs[2012] 讨论 了 一 个 使 用 多 个 深度 传 感 带 获取 实时 帧 率 下 用 户 环境 详细 
几何 表征 的 远程 呈现 系统 。 这 样 一 个 系统 的 搭建 需要 耗费 空间 与 精力 ， 但 其 产生 的 丰富 三 维 
表征 能 够 真实 地 显示 进行 全 身 运动 的 参与 者 。Pejsa 等 人 [2016] 致力 于 提取 本 地 参与 者 的 三 
维 数据 并 回 远程 空间 投影 真人 尺寸 的 虚拟 复制 品 。 
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a) b) 
图 12.9 ”远程 指 寻 在 个 人 计算 机 上 符 换 存储 体 。 远 程 专家 (b) 可 以 直接 在 移动 用 户 的 视 
图 中 绘制 注释 。 在 触 屏 交互 期 间 ， 实 时 视频 反馈 进行 了 稳 像 ， 视 频 被 连续 地 正 

确 投 影 到 持续 更 新 的 模型 上 面 (由 Steffen Gauglitz 提供 ) 


12.3.4 指向 和 手势 

能 够 通过 指 回 或 手势 提供 空间 参照 被 认为 是 成 功 的 远程 协作 中 的 一 项 重要 元 素 。 诸 
如 Wellner 和 Freeman[1993] 的 DoubleDigitalDesk 的 早期 工作 传输 了 用 户 在 一 张 桌 子 
上 进行 操作 的 手 部 视频 图 像 。Bauer 等 人 [1999] 从 一 项 用 户 研 究 中 得 到 的 经 验 数据 证 明 
了 能 够 进行 指向 确实 是 远程 协作 的 一 个 重要 方面 。 用 户 手 部 视频 所 传输 的 不 仅仅 是 指 回 ， 
也 包括 其 他 形式 的 手势 ， 比 如 传达 形状 、 指 示 两 手 间 的 距离 以 及 演示 运动 轨迹 等 [Fussell 
et al. 2004]。 更 多 的 近期 工作 能 够 传输 移动 工作 者 的 手 部 视频 [Alem et al. 2011] [Huang 
and Alem 2013]. 

如 果 不 能 传输 手 部 视频 ， 那 么 可 以 用 一 个 形 如 二 维 或 者 三 维 箭头 的 虚拟 指向 标 来 作为 指 
器 任务 中 的 一 个 蔡 代 [Chastine et al. 2008]， 或 者 采用 特殊 的 硬件 。Kurata 等 人 [2004] 描述 
了 一 个 安 疙 在 工人 肩 部 的 倾斜 平台 ， 带 有 一 个 摄像 机 和 激光 笔 。 这 套 设备 可 以 由 专家 远程 控 
制 以 改变 视角 以 及 用 激光 笔 在 环境 中 标志 物体 。 理 想 情 况 下 ， 虚 拟 指 向 标 和 注释 应 该 在 世界 
坐标 下 保持 稳定 ; 也 就 是 说 如 果 需 要 ， 在 远程 协作 者 的 视野 中 它们 应 该 与 相应 的 物理 位 置 相 
联系 ， 这 需要 跟踪 [Gauglitz et al. 2014b]。 

手势 的 三 维 表征 可 以 通过 深度 传感器 [Sodhi et al. 2013a] 或 多 个 摄像 机 获取 。Stafford 
等 人 [2006] 提出 了 用 来 提升 漫游 用 户 协 作 的 “上 帝 之 手 ”(Hand of God，HOG )。 该 系统 
由 一 个 小 型 圆柱 体 工 作 空 间 组 成 ,配置 了 多 台 援 像 机 ， 文 持 瞬 时 基于 图 像 并 覆盖 工作 空间 
所 有 事物 的 担 摄 、 传 输 和 泻 染 。 远 程 用 户 在 一 个 显著 放大 的 尺度 上 看 到 放 人 工作 空间 的 任 
何事 物 的 基于 图 像 的 三 维 泻 染 ， 即 数 米 的 实际 高 度 。HOG 用 户 的 一 个 典型 交互 方式 是 将 
一 只 手 放 人 工作 空间 ， 使 得 一 只 放大 的 手 出 现在 远程 用 户 面前 并 指向 一 个 特定 位 置 ( 见 图 
12.10 )。 为 一 项 应 用 是 将 一 张 市 有 注释 的 便利 贴 放 入 圆柱 体 中 ， 远 程 用 户 会 将 其 看 作 一 个 
大 的 公告 板 。 


12.3.5 包含 敏捷 用 户 的 远程 协作 
HOG 暗示 了 含有 在 广 域 内 漫游 敏捷 用 户 的 非 对 称 远程 协作 的 可 能 性 。 例 如 ， 一 个 静止 
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用 户 可 以 为 一 个 进行 侦查 的 移动 用 户 提供 指导 或 者 监督 。Hallerer 等 人 [1999b] 展示 了 这 种 
室内 室外 协作 的 一 个 早期 案例 。 在 他 们 的 应 用 中 ， 一 名 穿戴 增 踢 现实 系统 (LE 12.11a) 的 
Posie 户 在 哥伦比亚 大 学 内 漫游 ， 并 与 一 名 室内 用 户 相 连接 。 室 内 用 户 使 用 一 个 日 面 界面 

见 图 12.11b) 或 者 一 个 沉浸 式 虚 拟 现 实 界 面 (运用 头 戴 式 显 示 峰 )， 在 两 种 情况 下 都 显示 了 
amn ke anar aa 室内 用 户 可 以 与 室外 用 户 交 流 并 提供 视 沉 线索， 包括 导航 路 线 和 放置 了 
环境 中 用 于 标记 感 兴趣 对 象 的 旗帜 。 





a) b) 
图 12.10 a) 静态 系统 通过 多 个 视点 记录 用 户 用 来 指 同 的 手 。b) HREH a H R 
现实 视野 中 的 “上 稍 之 手 ”， 标 识 一 个 特定 位 置 (由 Aaron Stafford 和 Bruce 
Thomas 提供 ) 





a) b) 
图 12.11 a) 一 个 瘟 洲 于 大 学 校园 内 的 室外 用 户 〈 从 一 个 头 戴 式 显示 器 中 观看 )，b) 
个 为 移动 用 户 提 供 行 进 路 线 的 静止 用 户 (虚拟 现实 视图 ) 之 间 的 协作 〈 由 哥 伦 
比 亚 大 学 提供 ， 见 彩 插 ) 


12.4 se 


增强 现实 适用 于 多 种 类 型 的 协作 界面 。 它 是 一 项 用 于 同步 协作 的 尤为 强大 的 技术 ， ğ 
步 协作 中 两 个 或 者 更 多 的 用 户 共 同体 验 并 操控 增强 的 真实 世界 。 最 自然 的 方法 可 能 是 共享 
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空间 的 理念 ， 同 地 增强 现实 用 户 们 看 到 同样 的 真实 和 虚拟 物体 ， 但 是 每 个 用 户 可 以 设 定 其 
个 人 视点 。 该 方法 的 优势 来 目 关 于 虚拟 (或 被 增强 ) 物体 的 共同 体验 ， 不 需要 特定 的 成 熟 
协作 工具 。 

协作 增强 现实 的 为 一 个 同等 重要 的 领域 是 远程 协作 。 基 于 传统 视频 会 议 系 统 ， 可 以 通过 
引入 虚拟 的 或 增强 的 对 象 或 是 将 远程 用 户 呈 现 为 视频 替身 来 添加 增强 现实 视图 。 增 强 现 实 远 
程 协作 同样 适用 于 非 对 称 场景 ,一 个 用 户 捕 提 实时 视频 或 者 甚至 是 实时 几何 场景 表征 ， 而 男 
一 个 用 户 以 第 一 用 户 视角 直接 提供 反馈 。 这 种 设置 适用 于 含有 远程 专家 咨询 的 多 种 情景 。 


第 13 童 | 


Augmented Reality: Principles and Practice 
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本 草 主 要 关注 增强 现实 系统 的 软件 架构 。 在 软件 技术 方面 ， 增 强 现实 是 一 个 高 要 求 的 应 
用 领域 ， 它 汇集 了 许多 领域 的 组 件 ， 并 且 每 个 领域 都 有 其 上 自身 的 挑战 。 不 论 是 增强 现实 还 是 
虚拟 现实 都 具有 将 不 同 的 组 件 集成 到 一 个 实时 应 用 程序 中 的 复杂 性 。 除 此 之 外 ， 增 强 现实 还 
有 更 多 的 需求 ， 比 如 和 现实 世界 的 融合 以 及 支持 移动 计算 方式 等 这些 使 得 增强 现实 提出 比 
虚拟 现实 更 高 的 要 求 。 

我 们 首先 进行 通用 的 需求 分 析 ， 然 后 对 增强 现实 中 软件 架构 的 多 种 方案 进行 讨论 。 在 讨 
论 中 ,我 们 使 用 的 案例 来 自己 有 的 各 种 增强 现实 和 虚拟 现实 系统 ， 其 原因 在 于 在 软件 架构 上 
这 两 个 领域 经 常 有 相似 的 需求 。 

作为 典型 的 基础 ， 增 强 现实 建立 在 分 布 式 对 象 系统 上 。 在 这 些 系统 中 ， 数 据 流 方法 经 常 
用 来 设计 通信 和 和 控制， 特别 是 对 输入 设备 数据 流 的 处 理 。 此 外 ， 场 景 图 经 常用 来 描述 增强 现 
实 应 用 程序 的 图 形 部 分 。 最 后 ， 脚 本 语言 和 运行 时 的 重 配置 功能 可 以 提高 增强 现实 应 用 开发 
人 员 的 效率 。 

本 章 首 先 考虑 诱发 所 提出 解决 方案 的 需求 。 精 心 设计 的 软件 应 该 具有 正确 实现 功能 、 可 
徘 、 易 于 理解 、 高 度 可 用 、 有 效 且 可 维护 的 属性 ， 具 有 这 些 属性 的 每 段 程 序 都 会 用 到 架构 抽 
象 。 我 们 首先 简单 地 讨论 作为 增强 现实 软件 两 个 最 重要 的 基础 一 一 平台 和 用 户 界 面 抽 象 。 然 
后 我 们 讨论 复 用 和 扩展 ， 最 后 关注 分 布 式 计算 和 实时 分 布 混合 现实 软件 系统 的 重要 概念 之 
一 ， 即 解 耦 仿真 。 在 讨论 中 ， 我 们 将 重复 地 使 用 高 质量 软件 设计 的 原则 一 一 设计 模式 的 概念 
[Gamma et al. 1995] [Buschmann et al. 1996] [Fowler 2003]. 

然而 ， 我 们 首先 要 讨论 增强 现实 系统 的 显著 特点 和 软件 设计 的 基本 要 求 之 一 ， 即 计算 和 
交互 发 生 在 物理 世界 中 ， 因 此 需要 在 物理 世界 中 反应 和 关联 这 一 事实 。 


13.1 增强 现实 应 用 程序 的 要 求 


增强 现实 系统 最 与 众 不 同 的 特点 是 其 用 户 界面 (UI) 与 物理 世界 密切 相关 这 一 事实 。 一 
个 典型 的 增强 现实 用 户 界 面包 含 真实 物体 和 虚拟 物体 ， 两 者 都 有 潜在 的 影响 信息 显示 和 交互 
的 可 能 。 这 就 导致 对 环境 控制 、 场 景 动态 、 显 示 空 间 管理 、 虚 实 一 致 以 及 语义 化 知识 的 要 求 
[Hollerer 2004]. 


13.1.1 环境 控制 和 场景 动态 


增强 现实 系统 需要 能 够 对 用 户 视线 方向 的 改变 和 复杂 且 不 可 预知 的 真实 世界 做 出 实时 反 
应 。 相 比较 而 言 ， 台 式 机 的 用 户 界 面 是 静态 的 ， 而 虚拟 现实 界面 同样 是 实时 动态 的 ， 通 常 
可 以 通过 轻微 地 调节 和 调整 布局 来 优化 用 户 交 互 。 增 强 现实 的 界面 灵活 性 较 低 ， 其 原因 在 
于 真实 世界 一 般 不 能 被 用 户 所 控制 。 假 设 一 个 增强 现实 应 用 程序 需要 保证 用 户 对 物理 对 象 
的 无 阻碍 观察 〈 比 如 博物 馆 的 一 个 雕塑 )。 这 个 系统 需要 准备 如 下 情况 : 没有 注视 雕像 的 用 
户 ; 一 个 遮挡 物 ， 比 如 另 一 个 正 走 进 此 用 户 和 雕像 之 间 的 参观 者 ; 由 于 系统 不 可 控 的 真实 世 
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界 影 响 ， 使 雕塑 外 观 发 生 巨大 的 改变 〈 比 如 关 掉 雕像 上 的 照明 聚光灯 )。 很 多 真实 世界 环境 
可 以 通过 强健 通用 的 系统 默认 值 (例如 鲁 棒 的 跟踪 系统 )、 环 境 感 知 (例如 带 有 照明 匹配 的 
显示 器 ) 以 及 好 的 用 户 界 面 设 计 (例如 系统 识别 到 当前 视图 不 是 最 优 且 不 能 被 目 动 纠 正 修 改 
则 引导 用 户 去 进行 改善 ) 进行 合理 调节 。 虽 然 增强 现实 系统 必须 针对 真实 世界 场景 的 动态 变 
化 做 出 反应 ， 但 是 由 于 标注 的 非 必要 移动 会 分 散 注 意 力 ， 增 强 现实 的 屏 攻 构 图 不 应 过 度 改变 
[Bell et al. 2001]. 


13.1.2 ”显示 空间 


虚拟 现实 和 增强 现实 共有 的 潜在 特性 是 提供 了 用 户 周围 的 无 限 显示 空间 ,但 是 在 任何 时 
间 只 有 一 个 相对 较 小 的 视点 窗口 是 可 见 的 。 对 于 增强 现实 而 言 ， 主 要 的 不 同 在 于 空间 被 真实 
世界 所 制约 。 与 此 同时 ,增强 现实 提供 了 许多 和 真实 世界 架构 进行 集成 的 可 能 。 举 例 来 说 ， 
增强 现实 系统 可 以 将 许多 不 同 显示 器 和 在 物理 世界 中 存在 的 计算 接口 连接 起 来 ， 例 如 广告 
牌 、 显 示 墙 、 监 视 器 、 平 板 电 脑 、 智 能 手机 和 可 穿戴 装备 。 因 此 ， 增 强 现实 系统 基础 设施 必 
须 能 够 成 为 分 布 式 计算 环境 的 一 部 分 。 


13.1.3 虚实 一 致 


人 们 从 和 孩童 时 期 就 开始 学 习 ， 已 经 具有 了 很 多 年 如 何 与 物理 世界 进行 交互 的 经 验 。 人 们 
已 经 知道 如 何 使 用 和 观看 桌面 电脑 以 及 最 近 流 行 的 多 点 触 屏 智能 手机 和 平板 电脑 〈 现 在 越 来 
越 多 地 从 幼儿 早期 就 开始 使 用 )。 这 些 更 传统 的 计算 机 平台 定义 了 自己 的 用 户 界面 逻辑 : 与 
物理 世界 解 耦 并 从 中 借用 了 隐喻 〈 例 如 ， 在 多 点 触 屏 装置 轻 击 滚动 ， 视 图 会 产生 减速 运动 ， 
在 假定 的 摩擦 参数 情况 下 大 致 遵循 物理 定律 )。 虚 拟 现实 的 接口 界面 目前 还 没有 实现 真正 的 
标准 化 ， 因 此 有 机 会 开发 新 的 用 户 界面 标准 ， 包 括 潜在 的 超越 自然 交互 的 “不 可 思议 ”用 户 
界面 [Bowman et al. 2006]。 增 强 现 实 同 样 存在 这 一 潜力 ,但 是 对 与 物理 世界 的 用 户 交 互 和 
系统 输出 的 协调 一 致 性 有 更 严格 的 要 求 。 一 般 来 说 ,增强 现实 系统 需要 保持 相互 关联 的 物理 
和 虚拟 对 象 的 状态 ， 要 么 保持 其 相互 的 一 致 性 ， 要 么 有 目的 地 破坏 这 种 一 致 关系 。 正 如 第 7 
章 讨 论 的 ， 这 可 以 超越 〈 第 6 章 中 讨论 的 ) 纯粹 的 视觉 一 致 性 。 

13.1.4 语义 知识 

我 们 已 经 几 次 提 到 物理 对 象 和 虚拟 对 象 之 间 的 关系 ,通常 情况 下 这 种 关系 体现 为 附 在 物 
理 对 象 上 的 文本 标签 或 超 链接 等 简单 的 注释 形式 ， 这 种 关系 也 可 以 更 复杂 ， 如 虚拟 会 话 代 理 
[Anabuki et al. 2000] 的 可 编程 运动 行为 以 及 与 特定 区 域 的 动态 链接 。 显 然 在 增强 现实 系统 
中 为 了 做 出 虚拟 对 象 的 使 用 和 放置 的 明智 决策 ， 需 要 建立 物理 对 象 和 虚拟 对 象 之 加 的 场 义 关 
系 。 为 此 需要 获取 关于 物理 对 象 、 虚 拟 增 强 的 类 型 以 及 两 者 之 间 关 系 的 信息 。 总 之 ， 对 于 增 
强 现 实 ， 感 知 和 解释 物理 世界 是 一 项 越 来 越 重 要 的 需求 。 


13.1.5 ”物理 空间 


与 桌面 和 虚拟 现实 应 用 相 比 ， 增 强 现 实 的 男 一 个 主要 不 同 点 在 于 它 使 用 物理 运动 。 增 
强 现实 用 户 通常 在 物理 世界 中 移动 。 用 户 在 使 用 增强 现实 系统 时 移动 过 历 的 物理 环境 的 大 
小 规格 对 采用 的 跟踪 技术 和 可 变 的 物理 环境 提出 了 严 苛 的 要 求 (例如 城市 峡谷 干扰 GPS 信 
号 的 接收 )。 随 着 时 间 和 空间 的 变化 ， 使 用 不 同 的 跟踪 技术 可 能 会 导致 跟踪 精度 上 的 巨大 差 
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异 ， 而 一 个 好 的 跟踪 系统 应 该 可 以 应 付 这 一 问题 [Maclntyre and Coelho 2000][HOllerer et al. 
2001b]。 


13.2 软件 工程 要 求 


增强 现实 软件 不 仅 需要 满足 真实 世界 条 件 下 的 可 操作 性 ,还 要 解决 源 于 复杂 软件 系统 工 
程 的 需求 。 


13.2.1 平台 抽象 


为 了 使 增强 现实 应 用 可 以 在 任意 数量 的 目标 系统 上 运行 ， 必 须 提供 跨 平台 的 兼容 性 ， 这 
其 中 可 能 包括 各 种 操作 系统 、 用 户 界面 工具 箱 以 及 图 形 库 。 平 台 的 独立 性 可 以 避免 厂商 锁定 
并 且 有 利于 采用 更 新 、 更 强大 的 硬件 ， 这 一 点 对 于 快速 变化 的 移动 设备 市 场 非常 重要 。 一 般 
而 言 ， 独 立 于 特定 平台 对 所 有 软件 特性 的 要 求 。 增 强 现 实 结 合 了 更 多 的 方面 ， 特 别 是 涉及 输 
入 和 输出 设备 间 的 差异 性 ， 因 此 在 增强 现实 领域 这 一 特性 十 分 重要 。 应 用 程序 不 仅 需 要 了 解 
当前 的 设备 配置 ， 并 且 能 够 适应 其 他 设备 来 保持 其 可 用 性 和 有 效 性 。 

台独 立 性 也 能 让 融 有 异 构 软件 基础 设备 的 成 套 计 算 机 上 运行 分 布 式 增强 现实 应 用 变 得 
人 简单。 在 应 用 程序 本 号 强加 了 某 种 限制 时 ， 这 种 适应 性 十 分 有 用 。 例 如 ， 某 些 输 入 设备 的 驱 
动 程序 只 有 Windows 版 本 ， 而 图 形 应 用 程序 的 现 有 代码 只 能 在 Linux 上 运行 ， 如 果 底 层 增 
强 实 现 平 台 有 这 种 目 适 应 性 ， 我 们 就 不 需要 将 代码 从 一 个 平台 移植 到 另 一 个 平台 ， 而 是 只 需 
创建 一 个 由 Windows 系统 和 Linux 系统 混合 的 简单 分 布 式 系统 。 

可 移植 性 意味 着 增强 现实 应 用 的 源 代 码 可 以 在 任意 目标 平台 上 编译 ， 这 些 源 代码 可 以 
完全 不 改动 或 者 只 改动 很 小 一 部 分 。 这 可 以 通过 调用 中 间 平 台 抽 象 层 的 系统 特定 函数 来 实 
现 。 一 个 通用 的 抽象 层 通常 包含 在 Unity [Hocking 2015] 等 虚拟 现实 和 增强 现实 游戏 开发 
平台 、Qt [Dalheimer 2002] 等 用 户 界 面 工 具 包 以 及 ACE [Schmidt and Huston 2001] 等 网 
络 设计 工具 包 中 ， 可 以 被 开发 人 员 扩 展 为 覆盖 所 有 增强 现实 系统 中 与 具体 平台 相关 的 需 
求 。 在 使 用 第 三 方 库 时 ， 建 议 选择 支持 所 有 目标 平台 的 产品 。 如 果 没 有 第 三 方 库 ， 只 要 系 
统 被 设计 为 在 没有 这 个 库 提供 的 特定 功能 的 条 件 下 仍然 可 以 在 其 他 平台 上 使 用 ， 则 单一 平 
台 库 可 以 被 集成 。 


13.2.2 用户 界面 抽象 


尽管 基本 的 平台 抽象 是 非常 直观 简单 的 要 求 ， 考 虑 到 增强 现实 需求 的 用 户 界面 抽象 在 
概念 上 具有 更 复 洒 的 要 求 。 与 总 是 用 鼠标 和 键盘 操作 并 采用 WIMP (Windows 窗口 Icons 
图 标 、Menus Æ, Pointer 指针 ) 范式 的 桌面 应 用 程序 不 同 ， 增 强 现 实 没 有 单一 的 用 户 界 
面 模 板 (参见 第 6 章 )。 因 此 需要 从 特定 的 用 户 界面 样式 和 设备 中 独立 出 来 。 这 种 方法 可 以 
在 不 考虑 增强 现实 用 户 界 面 的 情况 下 开发 应 用 程序 人 逻辑 ， 而 用 户 界面 在 开发 过 程 中 很 可 能 会 
难以 或 不 方便 操作 和 测试 。 

举例 来 说 ， 假 设 一 个 应 用 程序 希望 从 大 范围 跟踪 装置 得 到 输入 ， 不 仅 跟踪 器 的 选择 可 能 
会 推迟 到 开发 过 程 后 期 以 便利 用 最 新 的 硬件 开发 成 果 ， 而 且 通 过 仿真 在 大 范围 环境 中 漫游 的 
用 户 输入 可 以 方便 开发 人 员 测 试 。 替 换 输 入 设备 是 一 个 相对 简单 的 用 户 界 面 抽象 方法 ， 交 互 
技术 替换 (融合 了 图 形 或 其 他 反馈 输入 ) 更 加 复杂 并 且 可 能 严重 影响 用 户 体 验 。 
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13.2.3 ”重用 性 和 扩展 性 


增强 现实 系统 应 该 促进 软件 组 件 的 重用 性 。 重 用 性 是 现代 面 回 对 象 编程 语言 的 一 个 通用 
目标 ， 通 过 抽象 在 类 中 实现 基本 的 重用 性 是 很 简单 的 。 但 是 增强 现实 应 用 程序 需要 超越 这 一 
点 。 增 强 现实 面 癌 生产 新 的 用 户 体验 ， 需 要 大 量 不 断 增 加 的 原型 制造 ， 因 此 软件 组 件 可 以 重 
新 排列 组 合 非 常 重要 ， 从 而 无 须 写 太 多 的 复制 代码 。 

同样 。 我 们 要 求 软件 组 件 应 该 可 以 通过 扩展 来 定制 其 行为 ， 这 不 仅 可 以 通过 子 类 化 加 以 
实现 ( 即 扩展 现 有 代码 )， 还 可 以 通过 聚合 几 个 组 件 成 为 更 大 功能 单元 构建 元 件 来 加 以 实现 。 
一 种 可 以 聚合 的 体系 结构 将 被 证 明 更 加 通用 。 


13.2.4 分布 式 计算 


如 前 所 述 ， 许 多 增强 现实 应 用 程序 需要 茶 种 分 布 式 计 算 。 这 种 需求 可 能 来 自 多 个 独立 组 
件 的 组 合 以 及 在 专门 的 硬件 或 平台 上 执行 。 分 布 式 计 算 在 可 扩展 的 多 用 户 系统 中 也 是 必要 
的 ， 每 个 用 户 使 用 一 台 连 接 到 一 个 通用 网 络 的 计算 机 客户 端 。 在 任何 情况 下 都 应 该 尽 可 能 地 
让 开发 人 员 远 离 网 络 编程 的 复杂 性 。 分 布 式 应 用 程序 的 开发 应 该 与 集中 式 应 用 程序 开发 一 样 
简单 ， 或 者 开发 人 员 可 以 避免 使 用 分 布 式 计算 。 

这 意味 着 增强 现实 系统 必须 提供 至 少 两 个 功能 。 第 一 ， 必 须 为 软件 组 件 提 供 一 个 统一 的 
通信 机 制 ， 使 得 通过 网 络 进 行 通信 如 同 本 地 通信 一 样 容易 。 需 要 注意 的 是 ， 通 过 网 络 信息 传 
递 事件 通信 得 以 扩展 ， 因 此 交互 系统 中 的 基本 通信 模式 通常 基于 事件 传递 而 不 是 函数 调用 。 
第 二 ， 方 便 的 实例 化 运行 控制 机 制 和 分 布 式 系统 的 调试 是 必要 的 。 


13.2.5 ADEA 


解 耦 仿真 是 分 布 式 交互 系统 和 虚拟 (或 增强 ) 环境 的 基本 概念 。 在 这 个 模型 中 ， 一 个 系 
统 至 少 包含 两 个 软件 组 件 ， 这 两 个 组 件 同 时 执行 独立 的 线程 控制 。 每 个 组 件 负责 模拟 或 保持 
环境 的 某 一 状态 并 以 自己 的 步调 执行 [Shaw et al. 1993]。 环 境 状 态 的 信息 共享 则 在 按 需 知 密 
的 基础 上 从 一 个 组 件 异 步 传递 到 另 一 个 组 件 。 

例如 ， 一 个 组 件 可 能 与 仿真 对 象 的 物理 状态 有 关 ， 而 另 一 个 组 件 负责 绘制 三 维 场 景 。 为 
了 产生 流畅 的 动画 ， 画 面 要 以 屏幕 刷新 速度 进行 更 新 ， 因 此 需要 比 物 理 更 新 更 频繁 。 类 似 
地 ， 位 姿 跟 踪 和 用 户 交 互 应 在 单独 的 线程 中 进行 处 理 ， 这 样 在 画面 刷新 时 就 不 会 产生 不 必要 
的 减速 或 者 停止 。 解 耦 仿真 模型 可 以 简化 这 个 方案 的 实现 ， 因 为 只 需要 考虑 局 部 改变 ， 组 件 
解 看 使 得 重新 配置 并 扩展 至 整个 系统 更 加 容易 。 


13.3 ”分布 式 对 象 系统 


分 布 式 对 象 系统 形成 了 基本 中 间 件 ， 这 是 最 先进 的 增强 现实 系统 赖 以 实现 的 根本 。 通 用 
的 中 间 件 (如 CORBA[Henning and Vinoski 1999] 、Java RMI[Grosso 2001] 以 及 ICE[Henning 
2004]) 的 目的 是 为 了 提高 平台 独立 和 分 布 式 计算 的 抽象 层次 。 分 布 式 对 象 系统 引入 的 基本 
思想 是 对 象 ( 即 软件 组 件 ) 可 以 被 实例 化 并 且 可 以 在 网 络 中 的 任何 位 置 操 作 。 

通过 远程 方法 调用 或 通过 信息 传递 都 可 以 方便 对 象 间 的 通信 。 因 为 在 实时 系统 中 需要 对 
象 独立 线程 控制 和 异步 通信 ， 信 息 传 递 方式 更 适用 于 使 用 解 耦 仿真 模型 的 实时 系统 。 因 此 在 
CORBA 等 传统 的 对 象 系统 中 使 用 相对 重量 级 的 对 象 ， 每 一 个 对 象 都 拥有 单独 的 线程 甚至 进 
程 。 在 其 他 一 些 方法 中 ， 系 统 的 基本 对 象 就 较为 轻 量 了 ， 多 个 对 象 共 享 一 个 线程 。 
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如 果 存 在 多 个 控制 线程 ， 不 论 相 应 的 软件 对 象 是 位 于 同一 台 主 机 上 还 是 多 台 主 机 上 ， 主 
应 用 程序 和 从 属 服务 对 象 之 间 的 界限 变 得 模糊 了 。 用 户 体验 是 多 个 软件 对 象 协同 合作 共同 带 
来 的 效果 ， 一 些 软件 对 象 直接 与 人 类 用 户 进行 交互 ， 而 其 他 软件 对 象 则 在 后 台 操 作 。 有 时 ， 
一 个 软件 对 象 可 能 承担 “主要 ”角色 ， 根 据 需要 创建 或 者 销毁 其 他 软件 对 象 。 缺 少 一 个 专用 
的 应 用 程序 组 件 意 味 着 颠倒 控制 模式 的 使 用 [Fowler 2003]: 在 建立 构成 应 用 程序 的 分 布 式 对 
象 之 后 ， 事 件 的 生成 和 信息 的 转发 就 决定 了 应 用 程序 的 表现 ， 没 有 任何 一 个 单独 的 软件 对 象 
可 以 完全 控制 其 他 所 有 的 软件 。 

分 布 式 对 象 的 集合 可 以 被 一 个 主 控 制 对 象 或 者 局 动 设备 实例 化 旦 有 线 通 信 。 最 简单 的 情 
况 是 局 动 设备 以 空 对 和 象 存 储 开始 ， 应 用 分 布 式 应 用 程序 整体 框架 的 详细 知识 来 创建 对 象 的 集 
合 。 初 始 化 后 集合 中 的 每 个 组 件 开 始 进行 本 地 操作 ， 只 与 其 熟知 的 同 级 对 象 进行 通信 。 

在 实际 应 用 环境 中 ， 这 种 使 用 中 央 集 中 控制 知识 的 简单 方案 是 不 够 的 。 例 如 ， 当 有 新 的 
组 件 出 现在 物理 世界 范围 内 时 ， 移 动 端的 增强 现实 运行 过 程 中 必须 建立 新 的 实时 通信 和 链 路 。 
在 其 他 情况 下 ， 形 如 设备 服务 器 的 某 些 组 件 可 以 连续 运行 并 且 可 以 在 很 长 时 间 内 为 任何 合适 
的 客户 站 提供 服务 。 局 动 设备 不 能 随意 实例 化 一 个 新 的 设备 服务 顺 ， 它 必须 寻找 并 绑 定 到 已 
有 的 一 个 服务 全 上 。 通 和 ,任何 对 象 的 存在 和 寿命 都 有 所 不 同 ， 每 个 对 象 都 可 以 随时 进行 情 
境 调查 并 进行 目 身 行为 的 调整 。 这 是 与 单 主 机 、 单 进程 、 单 用 户 环境 编程 的 根本 区 别 。 


13.3.1 ”对象 管理 


获得 系统 灵活 性 的 一 个 重要 前 提 是 实时 系统 或 者 中 间 件 的 内 省 能 力 ， 这 指 的 是 系统 分 
析 其 自身 结构 的 能 力 ， 例如 对 象 或 者 组 件 的 分 型 。 最 简单 的 例子 是 一 个 指向 类 或 者 方法 
的 指针 可 以 被 转换 为 该 类 或 者 方法 名 称 的 字符 串 ， 反 之 亦 然 。Java 和 CH 等 较 新 的 编程 语 
言 在 语言 层次 上 提供 了 内 省 支持 ， 而 出 于 性 能 方面 的 考虑 ， 增 强 现实 系统 大 多 通过 传统 的 
C++ 开发 。 可 以 通过 引入 一 个 定义 语言 的 接口 或 注释 代码 源 (比如 通过 预 处 理 或 者 预 编译 ) 
加 入 内 省 功能 。 

通过 内 省 功能 就 可 以 很 容易 地 创建 对 象 管理 器 (在 CORBA 中 叫 作 “代理 ”) 来 负责 管 
理 分 布 式 系统 中 的 对 象 : 对 象 要 在 对 象 管理 需 维 护 的 全 系统 数据 库 中 进行 配 准 ， 其 中 包含 
对 象 属性 和 接口 的 详细 信息 。 通 过 网 络 透明 处 理 正 在 响应 返回 的 所 需 对 象 ， 可 以 找寻 服务 
对 象 以 及 通过 查询 对 象 管理 居中 特定 对 象 的 类 型 或 特性 来 建立 新 的 连接 。 通 常 这 项 发 现 由 
SLP[Guttman 1999] 或 Bonjour[Cheshire and Krochma 2006] 等 专门 的 服务 定位 协议 辅助 。 对 
象 可 以 在 远程 主机 上 通过 工厂 方法 创建 [Gamma et al. 1995]。 内 省 也 可 以 使 对 象 集合 序列 
化 、 持 续 存 储 或 通过 网 络 传输 。 

某 些 增强 现实 系统 的 创建 者 选择 只 实现 一 个 本 地 对 象 管理 需 ， 并 不 打算 提供 对 应 用 程序 
透明 的 对 象 分 布 〈 即 本 地 和 远程 对 象 的 统一 通信 )。 该 方案 的 优点 是 可 以 从 C++ 开始 创建 一 
个 简单 的 本 地 对 象 管理 器 ， 不 依赖 于 任何 重量 级 的 网 络 库 。 这 种 框架 结构 的 例子 包括 用 于 增 
强 现实 和 虚拟 现实 的 AMIRE [Zauner et al. 2003] 以 及 用 于 CAVE[Cruz-Neira et al. 1993] 等 
传统 虚拟 现实 的 Juggler [Bierbaum et al. 2001]. 

本 地 对 象 管理 可 以 很 容易 地 以 对 象 发 送 和 接收 的 显 式 ( 非 透 明 式 ) 分 配 机 制 进行 扩 
展 。 应 用 程序 员 必 须 成 对 地 设置 这 些 对 象 以 便 通过 网 络 进行 显 式 通信 。 如 果 只 需要 少数 几 
条 通常 会 与 数据 流 结构 一 同 出 现 的 静态 网 络 通 信和 路 径 ( 见 13.4 节 )， 则 该 方法 符合 人 因 工 效 
学 。Tinmith [Piekarski and Thomas 2003] 等 几 种 流行 的 增强 现实 框架 选择 了 这 种 方式 。 田 
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一 个 虚拟 现实 领域 的 例子 是 AVANGO (又 名 Avocado) [Tramberend 1999], OpenTracker 
[Reitmayr and Schmalstieg 2005] 是 一 个 管理 增强 现实 设备 数据 流 的 库 ， 同 样 使 用 了 显 式 网 
络 。Avalon[Seibert and Dahne 2006] 通过 Bonjour 自动 解决 指定 有 名 目标 网 络 位 置 的 方法 使 
显 式 网 络 更 加 便捷 。 

从 头 开 始 建立 一 个 完全 透明 的 分 布 式 对 象 增强 现实 实时 系统 需要 付出 相当 大 的 努力 。 为 
实现 这 一 目标 的 研究 工作 依赖 于 已 有 的 中 间 件 实现 方法 。 例 如 ，MORGAN [Ohlenburg et al. 
2004] 将 建立 在 CORBA 的 对 象 存储 和 对 象 间 通 信 的 发 布 -订阅 模式 连接 起 来 。 

在 DWARF [Bauer et al. 2001] 中 使 用 了 一 个 更 彻底 的 设计 方案 。DWAREF 也 是 一 个 基于 
组 件 的 、 建 立 在 CORBA 上 的 分 布 式 系统 ， 但 没有 使 用 依靠 整体 应 用 框架 和 组 件 间 通信 需求 
中 心 控制 知识 的 传统 启动 改 置 。 在 调用 时 ,组 件 (在 DWAREF 叫 作 服务 ) 在 对 象 管理 句 中 通 
过 所 谓 的 需求 和 能 力 来 配 准 接口 。 该 管理 天 匹配 需求 和 能 力 ， 并 在 运行 中 以 巧妙 的 方式 连接 
合适 的 组 件 。 应 用 程序 的 行为 表现 为 匹配 需求 和 能 力 的 结果 。 

这 种 方法 有 几 个 理论 优势 。 需 要 特别 指出 的 是 ， 因 为 用 户 可 以 在 任意 时 刻 关 闭 和 更 换 组 
件 ， 增 强 现 实 系 统 的 寿命 将 会 大 大 延长 。 这 一 能 力 在 实际 开发 时 是 非常 有 用 的 ， 不 需要 进行 
整个 系统 重启 即 可 在 运行 时 进行 调试 和 修改 。DWAREF 的 灵活 性 同样 适用 于 移动 增强 现实 应 
用 程序 ， 它 可 以 自动 适应 不 断 变 化 的 基础 设施 建筑 。 例 如 ， 系 统 组 件 可 以 监视 跟踪 精度 ， 一 
旦 可 能 就 切换 到 更 好 的 跟 路 系统 。 同 样 ， 终 端 用 户 可 以 在 无 须 修 改 系 统 配 置 的 情况 下 将 模块 
插 接 在 一 起 并 从 新 模块 中 获 益 (在 消费 类 电子 产品 中 称 为 “ 即 插 即 用 ”的 特点 )。 但 是 不 利 
的 一 面 是 DWAREF 的 灵活 性 来 自 基于 CORBA 的 通信 和 连续 匹配 过 程 的 管理 成 本 ， 如 果 没 有 
其 他 改进 措施 ，DWARF 方法 并 不 能 很 好 地 处 理 并 发 对 象 。 


13.3.2 RPF: “WE” 


VE A — 4 SEF oF iW RAR SRA ASN BIE, RITETE “E” 
[MacWilliams et al. 2003]。“ 绵羊 ”是 一 个 多 人 游戏 ， 应 用 DWARF 服务 同时 完成 四 项 活动 : 
可 视 人 化、 跟踪、 交互 和 绵羊 的 仿真 。 其 应 用 程序 通过 DWARF 服务 的 形式 集成 了 多 个 第 三 方 
E (比如 3D 图形、 跟踪 、 语 音 识 别 )。 

图 13.1 和 图 13.2 显示 了 “绵羊 ”牧场 的 几 个 视图 。 一 个 投影 代 显 示 了 场景 的 自 上 而 下 
视图 ， 带 有 头 部 跟踪 的 头 戴 式 显 示 需 和 被 跟踪 的 笔记 本 电脑 屏幕 呈现 第 一 人 称 视角 。 此 外 ， 
携带 个 人 数字 助理 的 用 户 可 以 从 牧场 上 挑选 一 只 缠 羊 并 在 手持 屏幕 上 看 到 它 。 

“ 绢 羊 ” 的 系统 体系 结构 包括 跟踪 和 校准 、 呈 现 〈《VRML 演 染 和 声音 输出 )、 交 互 (包括 
跟踪 实体 碰撞 检测 和 语音 识别 ) 以 及 绵羊 仿真 模块 。 每 个 模块 使 用 多 个 服务 ， 这 些 服 务 通 过 
表达 需求 和 能 力 连接 。 在 分 布 式 系统 中 可 以 执行 同一 服务 的 多 个 实例 。 当 跟踪 服务 存在 于 一 
个 实例 中 并 向 所 有 感 兴趣 组 件 发 送 位 置 更 新 时 ， 用 户 界 面 控 制 器 以 及 VRML 浏览 服务 器 和 
观看 设备 的 实例 数量 是 一 样 的 。 最 大 的 服务 组 与 绵羊 有 关 ， 每 一 只 绵羊 都 由 单独 的 绵羊 服务 

红外 跟踪 系统 从 ART (http://www.ar-tracking.de/) 中 通过 UDP 数据 流传 送 高 质量 的 位 姿 
更 新 并 被 转换 为 DWARF 服务 所 能 理解 的 位 姿 事 件 。 校 准 后 位 姿 事 件 由 其 他 应 用 服务 使 用 。 

羊 群 仿真 是 通过 以 个 体 服务 为 代表 的 旨 羊 之 间 的 分 布 式 方式 实现 的 。 所 有 的 强手 交换 它 
们 当前 的 位 姿 并 且 这 一 信息 可 用 来 确定 每 只 绵羊 的 移动 。 每 只 绵羊 的 目标 都 是 待 在 什 群 附近 
并 避免 与 其 他 绵羊 碰撞 。 这 个 游戏 还 特别 配备 了 一 只 被 跟踪 的 真 羊 ， 用 来 引导 羊 群 到 达 特 定 
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图 13.1 “绵羊 ”的 物理 组 成 部 分 包括 多 用 户 使 用 的 投影 各 
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浏览 春 服 务 与 绵 手 连接 用 来 展示 手 群 和 牧 场 。 此 外 跟 踩 视图 与 跟踪 服务 相连 接 以 更 新 在 
用 户 移动 时 用 来 决定 场景 视图 的 虚拟 摄像 机 。 最 后 用 户 界 面 控制 天 收集 语音 识别 事件 等 用 户 
输入 ， 并 使 用 简单 的 状态 机 决定 系统 对 用 尸 输入 的 运 当 反应 


13.4 数据 流 
在 前 面 详 细 介绍 的 基于 组 件 的 方法 中 ， 不 论 是 本 地 还 是 分 布 式 的 都 要 结合 数据 流 ， 即 
个 管道 与 过 滤器 体系 结构 [Buschmann et al. 1996]。 增 强 现 实 应 用 程序 使 用 各 种 产生 数据 流 
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或 者 离散 事件 的 输入 带 件 和 设备 ， 我 们 将 数据 流 和 离散 事件 统称 为 事件 。 一 个 事件 在 触发 到 
用 户 可 以 感知 的 任何 效果 之 前 通常 会 经 历 一 系列 的 步骤 。 例 如 ,硬件 设备 产生 位 置 跟踪 器 事 
件 并 通过 设备 驱动 程序 读 取 ， 之 后 根据 应 用 程序 的 要 求 进行 适应 转化 ， 最 后 通过 网 络 传输 到 
其 他 主机 。 不 同 的 设置 和 应 用 程序 可 能 需要 不 同 的 子 集 和 子 集 的 组 合 ， 但 是 单独 的 步骤 在 大 
量 的 应 用 程序 中 虱 会 遇 到 ， 这 包括 几何 变换 和 数据 融合 过 滤 冀 等 第 见 的 步 允 c。 然 而 ， 数 据 流 
不 一 定局 限于 设备 或 用 户 输入 事件 ， 应 用 程序 的 任意 组 件 可 以 形成 新 的 事件 并 传人 数据 流 系 
统 。 例 如 ， 一 个 物理 仿真 可 以 产生 与 真实 和 虚拟 物体 碰撞 检测 相关 的 事件 。 

一 个 数据 流 系 统 的 主要 概念 是 将 数据 操作 分 解 成 个 体 步骤 并 为 这 些 步 骤 建 立 一 个 数据 流 
图 。 数 据 流 图 同样 从 访问 和 操纵 原始 事件 的 细节 进行 抽象 ， 这 一 抽象 是 通过 在 事件 生产 者 
和 消费 事件 的 应 用 程序 间 形 成 腑 构 层 来 实现 的 。 因 为 允许 事件 循环 传递 通 凋 非常 朵 烦 且 不 必 
要 ， 数 据 流 的 拓扑 结构 通常 是 一 个 有 癌 无 环 图 。 


13.4.1 数据 流 图 


数据 流 图 中 的 每 个 操作 单元 被 称 作 一 个 节点 。 节 点 通过 描述 流向 的 有 向 边 连接 。 每 个 节 
点 可 以 有 多 个 输入 和 输出 端口 。 一 个 端口 是 一 个 边 的 不 同 连 接 点 ， 也 融 是 说 ， 克 点 可 以 区 分 
通过 不 同 节 点 交口 的 事件 。 一 个 点 的 输出 交口 《前 节点 ) EEE Ig BS At 
口 《后 节点 )。 这 通过 定义 图 中 的 有 辐 边 建立 了 流 。 接 收 新 事件 的 节点 通过 一 个 输入 计算 内 
部 状态 的 更 新 并 通过 其 输出 端口 发 送 一 个 或 多 个 新 事件 。 在 某 些 体系 结构 中 也 允许 将 一 个 输 
出 端口 连接 到 多 个 输入 端口 ， 或 者 将 多 个 输出 端口 连接 到 一 个 输入 端口 。 这 样 的 虱 和 或 局 出 
连接 可 以 更 紧凑 地 表示 复杂 图 形 ， 并 且 可 以 通过 时 间 复 用 和 和解 复 用 来 处 理事 件 的 传播 。 
我 们 讨论 三 种 类 型 的 节点 : 
o 源 节 点 没有 输入 端口 ， 从 外 部 源 接收 数据 值 。 大 多 数 源 方 点 封 波 了 访问 特定 输入 设 
备 的 设备 驱动 程序 。 其 他 源 节 氮 形成 访问 视觉 跟踪 库 等 独立 系统 的 连接 。 源 节点 还 
可 以 从 网 络 检索 数据 或 者 提供 调试 输入 。 
o 滤波 器 节点 是 具有 至少 一 个 输入 和 一 个 输出 并 口 的 中 间 市 点 ; 它们 对 从 其 他 市 点 接收 
到 的 值 进 行 修改 。 滤 波 疑 扩 扩 接收 来 目 其 他 市 各 的 值 ， 当 接收 到 来 目 一 个 或 多 个 市 
点 的 更 新 时 ， 滤 波 融 节点 根据 收集 的 数据 计算 状态 的 更 新 。 滤 波 天 万 点 的 例子 包括 : 
几何 变换 过 滤器 《例如 通过 变换 矩阵 的 向 量 前 或 后 乘 )， 布 尔 值 逻辑 运算 (例如 通过 
按钮 生成 ， 用 于 预测 的 信号 滤波 )， 平 滑 或 去 品 ， 数 据 选 择 ， 聚 集 或 融合 ， 数 据 空间 
的 转换 ， 以 及 到 用 户 指 定时 间 间 隔 的 数 人 截断 。 
o 汇聚 节点 没有 输出 端口 ， 用 来 触发 数据 流 之 外 的 组 件 。 汇 聚 节点 与 源 节 点 相似 ， 但 
是 用 来 提供 数据 而 不 是 接收 数据 ， 这 包括 将 数据 传输 到 驻 留 在 数据 流 图 外 的 应 用 程 
序 对 象 ， 通 过 网 络 传输 或 者 多 点 广播 到 其 他 主机 ， 记 录 文 件 以 及 显示 控制 合 输 出 等 。 


13.4.2 多 模 态 交互 


多 模 态 交互 需要 数据 流 系 统 具 有 处理 、 混 全 以 及 匹配 各 种 类 型 数据 的 能 力 。 在 一 个 广泛 
用 于 场景 图 库 舱 入 式 数据 流 的 简单 实现 中 [Strauss and Carey 1992] 的 事件 包含 一 个 单一 的 数 
据 项 ， 可 从 固定 (有 时 是 可 扩展 的 ) 基本 类 型 数据 集中 进行 类 型 选择 ， 包 括 布尔 、 整 型 、 字 
符 捉 或 浮 点 3 回 量 。 输 入 和 输出 端口 被 同样 类 型 化 并 且 只 接收 兼容 端口 的 连接 ， 这 可 能 通过 
隐 式 类 型 转换 实现 。 只 要 数据 类 型 已 知 ， 该 方案 就 可 以 建立 包含 混合 事件 类 型 的 数据 流 ， 但 
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是 这 样 一 个 简单 方案 不 能 处 理 聚 合 事件 。 例 如 ， 和 触摸 屏 可 以 将 点 击 操作 的 (x,y) 位 置 与 点 击 
的 压力 一 起 编码 。 标 志 跟 踩 库 可 以 同时 跟踪 多 个 标志 并 同时 实现 位 姿 估 计 和 标志 识别 。 这 些 
数据 项 属于 一 个 整体 ， 但 它们 不 能 映射 到 任何 单一 的 基本 数据 类 型 。 

为 了 处 理 聚 合 事件 ， 一 个 选项 是 通过 采用 新 的 代表 聚合 信息 的 基本 类 型 来 扩展 系统 。 不 
竺 的 是 ， 该 方案 可 以 很 容易 导致 非常 专业 数据 类 型 的 组 合 爆炸 。 此 外 ， 这 种 专业 化 的 方法 
只 能 理解 泛 型 ， 与 现 有 节点 的 重复 使 用 不 兼容 。OpenTracker 库 提 出 了 一 个 更 先进 的 方法 
[Spiczak et al. 2007] : 将 事件 建 模 为 存储 多 类 型 键 TA. RRA, BAAS 
任何 特定 的 键 或 类 型 。 节 点 可 以 生成 新 事件 ， 将 新 的 键 / 值 对 插入 到 现 有 事件 或 修改 现 有 的 
键 / 值 对 。 遵 从 懒惰 型 检查 方法 接收 事件 的 节点 按 所 需 的 关键 属性 进行 检索 。 

如 果 接 收 到 的 事件 中 所 需 的 属性 不 可 用 或 者 属性 与 预期 值 的 类 型 不 兼容 ， 就 会 发 生 运行 
错误 。 为 了 避免 这 样 的 错误 ， 应 用 程序 的 开发 人 员 必 须 确保 数据 流 图 中 合适 的 节点 连接 。 在 
实际 使 用 中 ， 只 有 当 数 据 流 图 通过 不 正确 的 方式 组 成 时 ， 运 行 错误 才 会 发 生 ， 因 此 这 样 的 错 
误 不 算是 一 个 大 问题 。 

由 于 这 一 方案 在 访问 事件 数据 上 会 消耗 更 多 的 管理 成 本 ， 因 此 事件 是 通过 引用 调用 而 
不 是 通过 值 调用 传递 的 ， 从 而 可 以 避免 耗 时 的 复制 操作 。 但 是 ， 也 有 一 些 值 调用 不 能 使 用 
的 例外 。 例 如 ， 当 两 个 连接 的 节点 不 驻 留 在 同一 地 址 空间 或 者 遇 到 扇 出 时 ， 必 须 回 接收 端 
提供 事件 的 详细 副本 。 如 果 事件 必须 通过 网 络 传送 ， 必 须 参 照 包含 在 事件 中 的 类 型 信息 来 序 
列 化 事件 。 


13.4.3 线程 和 调度 


对 于 如 何 操作 数据 流 图 中 的 太 点 问题 有 两 种 可 能 的 方案 ， 取 决 于 设置 的 是 哪个 线程 : 
节点 可 以 等 待 主线 程 调用 ， 或 者 由 节点 控制 一 个 独立 的 线程 。 当 需要 解 耦 仿真 时 ， 一 个 独 
立 的 控制 线程 非常 有 用 ， 例 如 当 设 备 的 驱动 程序 需要 一 个 完全 停止 单一 线程 系统 的 阻塞 等 
(FAY 

与 此 相反 ， 分 配 多 个 节点 到 一 个 单一 的 主线 程 在 计算 资源 方面 更 经 济 ， 还 可 以 给 出 节点 
更 新 调度 的 主线 程控 制 。 主 线程 可 以 从 多 个 调度 策略 中 选择 ， 这 取决 于 如 何 处 理事 件 的 时 间 
问题 。 我 们 可 以 将 这 种 调度 策略 分 为 推送 策略 和 拉 引 策略 : 

o 推送 策略 ( 见 图 13.3a) 简单 地 将 新 事件 从 前 节点 转发 到 后 节点 。 为 了 考虑 并 发 性 ， 

每 一 个 事件 必须 由 产生 的 节点 生成 时 间 戳 。 后 续 的 节点 可 以 对 数据 的 时 间 方 面 作出 
反应 。 例 如 一 个 预测 三 点 将 会 考虑 后 续 事 件 之 间 的 时 间 差 以 更 新 输出 。 理 想 情况 下 ， 

”调度 算法 会 按 因 有 果 顺 序 访问 节点 ， 因 此 只 有 在 访问 一 个 节点 之 前 的 所 有 节点 之 后 才 
会 访问 当前 节点 。 但 是 如 果 最 新 事件 的 传播 出 现 几 个 仿真 周期 的 延迟 是 可 以 被 接受 
的 ， 只 要 所 有 节点 都 最 终 被 访问 到 ， 调 度 就 可 以 任意 顺序 发 生 。 

在 拉 引 策略 ( 见 图 13.3b) 中 ， 后 续 节 点 通过 物理 或 逻辑 时 间 值 作为 参数 轮 询 它们 的 
前 节点 。 拉 引 策 略 对 于 操作 成 组 事件 的 节点 是 必要 的 ， 例 如 加 窗 滤波 ， 或 者 是 节点 
运行 在 一 个 特定 的 时 间 点 (如 预测 节点 )。 

为 了 实现 拉 引 ， 多 个 事件 在 图 的 边缘 排列 。 同 样 ， 所 有 事件 必须 被 再 一 次 加 上 时 间 截 ， 
调用 者 提供 的 时 间 被 用 来 选择 队列 的 意愿 输入 ， 可 能 需要 时 间 内 插 其 至 外 插 。 由 于 这 会 导致 
更 多 的 管理 成 本 ， 所 以 拉 引 策略 通常 只 在 必要 时 实施 。 
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图 13.3 a) 推送 策略 将 最 新 的 事件 转发 到 一 个 接收 器 (缓冲 区 )， 在 那里 可 以 被 立即 检 
Ro b) 拉 引 策略 使 用 可 由 时 间 参 数 化 的 递归 查询 ， 与 数据 流 的 方向 相反 


返回 





13.4.4 RHF: 可 穿戴 的 增强 现实 装置 


我 们 以 一 个 早期 的 可 穿戴 增强 现实 装置 作为 案例 。 该 装置 大 约 设 计 于 2001 年 ， 使 用 
OpenTracker 操作 [Reitmayr and Schmalstieg 2005] 和 运行 Windows 2000 的 市 有 1GHz 处 理 
器 的 笔记 本 电脑 。 其 输出 设备 是 索尼 Glasstron BMA fi ALR. BREE 
用 户 佩 戴 的 头 秋 上 ， 在 头 秋 上 同时 安装 了 一 个 InterSense InterTrax2 方 问 传感器 和 一 个 用 于 
互动 道具 基准 标志 跟踪 的 网 络 摄像 机 。 电 脑 由 背负 背包 的 使 用 者 携带 。 

主要 的 用 户 界面 采用 了 笔 式 绘图 板 设置 ， 使 用 了 Wacom 绘图 板 和 笔 。 这 两 个 设备 通过 
标志 被 光学 相机 跟踪 。 笔 的 二 维 位 置 (由 Wacom 绘图 板 提供 ) 被 结合 在 进程 中 来 提供 更 加 
精确 的 绘图 板 跟 踪 结 果 。 图 13.4 显示 了 装置 的 概况 。 

用 户 和 互动 道具 的 跟踪 通过 结合 不 同 来 源 的 数据 获得 。OpenTracker 组 件 接 收 来 自 InterTrax2 
姿态 追踪 器 的 用 户头 部 朝向 ， 并 由 此 提供 一 个 号 体 绑 定 位 置 和 世界 绑 定 取 回 的 坐标 系统 。 

在 这 个 坐标 系 中 ， 笔 和 绘图 板 通过 安装 在 头 委 上 的 摄像 机 进行 跟 足 ， 采 用 ARToolKit 
[Kato and Billinghurst 1999] 处 理 视 频 信 息 。 因 为 摄像 机 和 头 戴 式 显示 带 部 被 固定 在 头盔 上 ， 
所 以 相机 坐标 系 和 用 户 坐 标 系 间 的 转换 在 校准 步骤 中 就 已 经 确定 了 。 

通过 在 绘图 板 上 安装 一 个 标志 足以 让 用 户 将 绘图 板 举 在 其 视野 内 并 与 显示 在 绘图 板 上 的 
二 维 用 户 界 面 元 素 进行 交互 等 标准 操作 。 在 笔 上 需要 安装 一 个 在 五 条 上 自由 边 带 有 标志 的 立方 
体 ， 这 使 得 用 户 几 乎 可 以 在 任何 位 置 和 方 呵 跟 踊 笔 。 此 外 ， 每 当 用 户 用 笔触 碰 绘图 板 时 ， 所 
提供 的 更 加 精确 的 二 维 信息 也 被 用 来 设置 笔 相 对 绘图 板 的 位 置 。 

描述 必要 的 数据 转换 的 数据 流 图 如 图 13.5 所 示 ， 其 中 顶端 的 圆 形 节 点 是 封装 设备 驱动 
程序 的 源 节 点 。 底 端的 圆 形 节点 是 输出 ， 将 得 到 的 数据 复制 到 增强 现实 软件 中 。 中 间 贡 点 接 
收 包含 跟踪 数据 的 事件 ， 将 其 转换 并 向 下 传递 。 相 对 转换 从 两 个 不 同 的 设备 输 人 并 将 一 个 设 
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备 的 位 置 解释 为 相对 于 为 一 个 设备 ( 称 为 基 ) 位 置 的 变化 。 
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图 13.4 ”一 个 可 穿戴 增强 现实 装置 ， 包 括 一 个 装 有 笔记 本 电脑 的 硼 包 、 配 备 惯 性 方向 跟 
踪 硕 和 摄像 机 的 头 戴 式 显示 融 以 及 同样 使 用 标志 光学 跟踪 的 手持 平板 和 手写 笔 
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图 13.5 Koi RME ARR EAEE MiB AN Sei. KSA 
置 描 述 中 自动 生成 (由 Gerhard Reitmayr 提供 ) 


在 图 中 ， 连 接 不 同 灰 度 文本 框 的 路 径 摘 述 了 如 何 处 理 不 同 的 设备 跟踪 数据 。 相 对 转换 用 
阴影 线 文本 框 表 示 。 例 如 光学 笔 的 路 径 描述 了 五 个 标志 ， 每 一 个 标志 都 可 以 用 来 产生 笔尖 的 
某 一 个 位 置 。 在 将 结果 进行 合并 后 继续 传递 。 在 与 绘图 板 数 据 进行 合并 后 ， 数 据 表 次 被 转换 
至 由 方向 传 感 硕 建 立 的 参考 系统 。 

类 似 地 ， 光 学 绘图 板 路 径 描述 了 通过 计算 来 获取 绘图 板 位 置 的 方法 。 作 为 其 副产品 ， 用 
光学 绘图 板 信 息 一 步 完 成 将 二 维 信息 从 图 片 绘图 板 路 径 转换 到 实际 笔 位 置 ， 然 后 与 纯 光 学 信 
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县 融合 。 最 后 头 戴 式 显 示 需 位 置 路 径 用 于 提供 头 部 位 置信 息 。TestSource 节点 的 任务 是 提供 
一 个 党 数值 ， 通 过 方向 传 感 偶 进行 转化 。 


13.5 HRR 


我 们 现在 开始 关注 场景 图 一 一 一 个 表示 和 演 当 图形 场景 的 广泛 接受 的 数据 结构 ， 构 成 
了 图 形 工 具 包 和 游戏 引擎 的 基础 。 场 景 图 来 自在 泻 染 的 场景 中 提供 一 个 高 级 的 、 用 于 可 视 
数据 面 品 对 和 象 抽象 的 需求 。 三 角形 列表 等 代表 一 个 传递 到 程 友 图 形 库 (例如 OpenGL 或 者 
DirectX) 图 元 绘制 的 一 对 一 映射 的 单纯 数据 结构 不 适合 较 大 的 图 形 工程 ， 因 为 它们 不 能 代表 
具有 意义 属性 的 高 级 对 象 。 

与 这 样 的 单纯 数据 结构 不 同 ， 我们 需要 一 个 更 加 复杂 的 标识 方法 ， 可 以 明确 描述 包含 在 
一 个 场景 中 的 对 象 及 其 图 形 属性 ， 从 而 可 以 避免 重复 数据 库 问 题 。 也 就 是 说 ,没有 必要 和 存 
储 和 单独 维护 对 象 仿真 和 绘图 的 表示 。 统 一 的 表示 也 适用 于 三 维 直 接 交 互 ， 这 在 许多 增强 
现实 应 用 程序 中 是 必 不 可 少 的 。 这 个 想法 由 Open Inventor 概括 为 其 格言 “对象 ， 而 不 是 绘 
H” [Strauss and Carey 1992]。 对 于 增强 现实 系统 而 言 ， 场 景 图 十 分 重要 ， 因 为 包含 在 场景 
图 中 的 对 象 可 以 用 于 虚拟 和 真实 实体 的 建 模 ， 便 于 两 种 类 型 的 统一 处 理 。 


13.5.1 场景 图 的 基本 原理 

场景 图 是 一 个 由 节点 组 成 的 有 向 无 环 图 。 节 点 通过 有 向 边缘 连接 形成 层次 结构 。 这 种 层 
次 结构 可 以 建 模 几 何 关系 (例如 桌 腿 与 桌面 相连 ) 或 者 语义 关系 (例如 球 队 的 所 有 成 员 组 合 
在 一 起 ) 。 这 些 层次 结构 关系 通常 可 以 表示 成 树 结构 ， 也 可 以 表示 为 一 个 有 向 无 环 图 ， 即 一 
个 节点 可 能 有 许多 前 节点 。 这 人 允许 用 户 从 多 个 位 置 索引 重用 子 图 。 例 如 ， 轿 车 的 车 轮 可 以 通 
过 四 次 指 阿 代表 一 个 单独 车 轮 的 同一 个 节点 来 表示 ， 每 次 采用 不 同 的 几何 变换 。 

节点 是 类 的 实例 ,决定 了 其 在 场景 中 的 角色 。 叶 节点 对 应 几何 图 元 ， 如 长 方 体 、 球 体 、 
圆锥 体 或 者 三 角形 网 格 ， 或 是 图 形 场景 中 的 其 他 重要 对 象 ， 如 灯光 和 摄像 机 。 内 部 节点 组 成 
其 子 对 象 。 颜 色 、 纹 理 或 者 几何 变换 等 属性 节点 可 以 由 内 节点 或 者 叶 节 点 表示 ， 这 取决 于 特 
定 场景 图 形 库 选 择 的 语义 。 图 13.6 给 出 了 一 个 简单 的 例子 。 


Shape Shape 





a) b) 
图 13.6 a) 一 个 由 红色 椭 球 和 带 有 砖 块 纹理 的 长 方 体 构成 的 场景 图 ; b) Ao FA 
的 几何 场景 的 截图 
每 个 节点 由 称 为 字段 的 属性 构成 。 例 如 ， 一 个 球体 节点 具有 中 心 和 半径 的 字段 。 字 上 段 本 


身 是 对 象 并 且 能 够 在 运行 系统 中 交互 ， 例 如 在 观察 者 模式 中 被 序列 化 或 者 作为 被 观察 对 象 参 


与 [Gamma et al. 1995]。 基 于 节点 和 字段 提供 的 面 癌 对 象 的 能 力 ， 整 个 场景 图 成 为 目 我 描述 
的 〈 即 具备 反射 能 力 )。 

场景 图 通过 图 形 遍历 处 理 ， 即 通过 应 用 访问 者 模式 [Gamma et al. 1994], Whee, WA 
场景 图 的 根 到 场景 图 的 叶子 按照 深度 优 先 顺序 进行 。 遍 历 可 以 视 为 一 个 状态 机 的 执行 ， 在 每 
个 节点 被 访问 或 者 其 中 一 个 节点 的 虚拟 方法 被 调用 时 积累 状态 和 触发 副作用 。 最 重要 的 遍历 
是 演 染 遍历 ， 通 过 对 每 个 节点 调用 演 染 方法 生成 一 个 场景 的 视图 ， 通 第 分 发 底层 的 图 形 命令 
(OpenGL 或 者 DirectX)。 其 他 类 型 的 遍历 包括 视 锥 裁剪 、 包 围 愈 计算 、 光 线 相交 、 寻 找 市 
点 类 型 、 序 列 化 到 文件 以 及 设备 事件 处 理 等 不 同 活 动 。 

因为 一 个 节点 可 以 有 多 个 前 节点 ， 所 以 在 给 定 的 过 历 中 可 能 会 被 访问 不 止 一 次 。 多 次 指 
向 同一 节点 的 原因 是 同一 节点 应 该 代表 场景 中 多 个 不 同 的 对 象 。 为 了 区 分 这 些 场 景 对 象 ， 只 
提供 一 个 单一 节点 的 引用 是 不 够 的 。 相 反 ， 一 个 对 象 通 过 提供 的 引用 列表 唯一 确定 ， 只 有 从 
根 节点 到 正在 使 用 的 代表 对 象 的 节点 这 一 条 路 径 。 例 如 ， 应 用 程序 可 以 通过 提供 路 径 的 查询 
完成 从 根 到 特定 对 象 的 累积 转换 。 


13.5.2 依赖 图 


场景 的 主要 图 形 结构 表示 引导 过 历 的 层次 结构 。 在 大 多 数 场 景 图 中 ， 二 次 图 形 结构 也 被 
熙 入 。 这 种 所 谓 的 依赖 图 表示 一 个 数据 流 ， 与 前 面 讨论 的 数据 流 非常 相似 。 场 景 图 中 的 数 
据 流 在 个 体 字段 之 间 通 过 字段 连接 建立 。 当 场景 图 中 的 两 个 字段 通过 字段 连接 时 ， 源 字段 值 
的 任何 改变 都 传递 至 目标 字段 。 例 如 ， 可 以 设置 一 个 始终 与 特定 的 源 对 象 颜色 相同 的 目标 对 
象 ， 从 而 主场 景 图 结构 分 开 的 部 分 场景 图 可 以 被 连接 以 表现 共同 行为 。 


13.5.3 ”场景 图 集成 

已 经 出 现 了 许多 不 同 的 涵盖 各 种 设计 目标 的 场景 图 形 库 ， 如 优化 并 行 泻 染 性 能 的 图 形 库 
或 是 符合 VRML 或 者 X3D 标准 的 图 形 库 。 鉴 于 场景 图 是 解决 增强 现实 框架 下 的 图 形 演 染 需 
求 的 最 便捷 方式 ， 大 多 数 框架 均 采 用 了 某 种 形式 的 场景 图 。 这 种 融合 并 不 是 很 容易 获得 的 ， 
本 市 简单 地 讨论 必须 将 场景 图 集成 到 增强 现实 框架 中 的 技术 选择 。 

一 个 常用 的 方法 是 将 场景 图 舱 入 增强 现实 框架 ( 见 图 13.7a) 的 演 染 组 件 ( 即 一 个 重量 
级 对 象 ) 。 如 果 增 强 现实 框架 已 经 基于 重量 级 对 象 (例如 ，CORBA)， 则 这 样 的 选择 就 很 合 
适 ， 特 别 是 在 一 个 现 有 的 第 三 方 场景 图 必须 被 集成 的 情况 下 。 例 如 ，DWAREF 使 用 VRML 
场景 图 查看 器 作为 一 个 组 件 [Bauer et al. 2001], MORGAN 介绍 了 一 种 基于 X3D Wie RA 
{F [Ohlenburg et al. 2004]。 集 成 现 有 的 场景 图 在 潜在 地 提供 一 个 丰富 的 图 形 功能 集 的 同时 避 
免 了 重复 工作 。 然 而 ， 因 为 第 三 方 场景 图 会 引 人 和 人 其 目 璋 的 API， 可 能 与 增强 现实 框架 的 API 
不 完全 协调 ， 这 通常 不 能 实现 与 增强 现实 框架 非常 紧密 的 集成 。 特 别 地 ， 增 强 现 实 框架 中 传 
递 的 消息 只 能 被 发 送 到 演 染 组 件 而 不 是 直接 到 场景 图 中 的 单个 市 点 ， 演 染 组 件 必 须 作为 一 个 
翻译 占 ， 这 时 致 非常 整 脚 的 软件 设计 。 

另外， 如 果 更 多 细节 组 件 可 能 被 设计 在 增强 现实 框架 中 ， 一 种 常见 的 解决 方式 是 通过 在 
场景 图 中 引入 可 以 发 送 和 接收 用 于 增强 现实 框架 ( 见 图 13.7b) 数据 流 信 息 的 特殊 节点 类 型 
来 连接 增强 现实 框架 中 的 场景 图 和 数据 流 。 这 一 特殊 的 数据 流 节 点 实现 了 场景 图 节点 的 接口 
和 数据 流 对 象 的 接口 ， 从 而 无 缝 连接 了 这 两 个 系统 ， 使 这 种 方法 广 受 欢迎 。 因 为 只 有 一 个 
新 的 节点 需要 被 实施 ， 这 种 方法 也 与 第 三 方 场景 十 分 兼容 。 例 如 ，Avalon[Seibert and Dihne 
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2006] EF IK WT A HR A SEF OpenSG [Reiners et al. 2002] 的 VRML 场景 图 ， 而 Studierstube 
[Schmalstieg et al. 2002] ite A OpenTracker 节 点 [Reitmayr and Schmalstieg 2005]. OSGAR 
[Coelho et al. 2004] 将 VRPN [Taylor et al. 2001] 与 OpenSceneGraph 数据 流 相 结合 。Avango 
[Tramberend 1999] 允许 路 越 网 络 将 任意 字段 连接 到 基于 Performer [Rohlf and Helman 1994] 
的 场景 图 ， 从 而 实现 了 网 络 数据 流 。 


te A AF 


Fee 2H fF 





传 给 节点 3 的 信息 


FAP FP ii H F 


a) 


用 户 界 面 组 件 


跟踪 组 件 4 
| 传 给 节点 3 的 信息 3 Fisk 4 


b) 


用 户 界 面 组 件 


跟踪 组 件 
传 给 节点 3 的 信息 





€) 


图 13.7 对 全 系统 数据 流 和 场景 图 系统 的 三 种 集成 方法 。a) 一 个 融合 了 第 三 方 场景 图 的 专 
门 演 染 组 件 需要 使 用 事件 翻译 器 来 将 信息 从 数据 流 网 络 传送 到 场景 图 。b) 场景 图 
可 以 通过 特殊 的 节点 或 字段 被 扩展 ， 可 以 直接 与 数据 流 组 件 进行 通信 。c) 在 同 质 
体系 结构 中 ， 场 景 图 的 类 来 自 于 数据 流 的 类 ， 场 景 图 和 数据 流 组 件 可 以 无 颖 通信 
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有 很 多 从 数据 流 网 络 回 场 景 图 传递 信息 的 不 同方 式 。 例 如 ， 信 息 可 以 直接 注入 字段 ， 由 
发 布 一 订阅 机 制 ( 即 节点 订阅 某 些 事 件 ) 转发 ， 或 者 作为 场景 图 遍历 的 有 效 负载 (允许 实现 分 
层 过 滤 )。 虽 然 直接 注入 字段 是 最 常用 的 选项 ， 但 是 最 好 的 方法 需要 考虑 应 用 程序 的 特殊 需要 。 

第 三 种 选项 是 作为 专业 化 的 层次 对 象 系统 从 头 开 始 实现 场景 图 ( 见 图 13.7c)。 例 如 在 
Tinmith 系统 [Piekarski and Thomas 2003] 中 ， 所 有 的 应 用 程序 数据 被 分 层 整理 为 对 象 ， 便 于 
进行 对 象 和 对 象 组 寻 址 。 场 景 图 只 是 整体 层级 结构 的 子 图 ， 由 “可 演 染 ”对 象 组 成 并 被 指定 
泻 染 。 因 为 场景 图 对 象 也 是 共用 同一 接口 的 通用 对 象 ， 在 Tinmith 系统 对 象 间 的 数据 流 以 完 
全 统一 的 方式 工作 。 


13.5.4 ”分 布 式 共享 场景 图 


最 后 ， 我 们 把 注意 力 转向 场景 图 分 布 。 正 如 我 们 所 见 ， 如 果 人 允许 数据 流 跨 网 络 ， 数据 流 
系统 自然 就 可 以 支持 分 布 式 应 用 。 例 如 ， 通 过 使 用 跨 网 络 的 字段 连接 ， 这 个 想法 可 以 被 应 用 
到 场景 图 的 数据 流 。 在 Avango 系统 [Tramberend 1999] 中 ， 网 络 化 的 字段 连接 提供 了 多 用 
户 或 多 屏 薪 应 用 的 机 制 。 联 网 机 器 系统 中 的 每 个 主机 存储 其 自身 的 场景 图 ， 但 是 相关 的 共 
享 数 据 通过 网 络 化 的 字段 连接 相连 ， 提 供 了 所 需 的 跨 机 器 边界 同步 。 另 一 个 相似 的 方法 在 
数据 流 中 引入 了 Avalon [Seibert and Dahne 2006] 和 OpenTracker [Reitmayr and Schmalstieg 
2005] 等 特殊 的 “网 络 ”节点 。 网 络 字 段 连接 一 般 应 用 于 主 从 拓扑 结构 中 ， 用 户 输入 被 引导 
到 主机 ， 从 机 通过 字段 连接 得 到 更 新 通知 。 

原理 上 ， 字 段 连接 足以 复制 全 部 场景 图 。 每 个 主机 都 可 以 存储 场景 图 的 副本 并 通过 字段 
连接 将 所 有 字段 连接 到 主 副本 。 遗 憾 的 是 ， 这 种 方法 需要 大 量 的 字段 连接 ， 因 此 不 能 很 好 地 
扩展 。COTERIE [Macintyre and Feiner 1998] 和 分 布 式 Open Inventor [Hesina et al. 1999] 提 
供 了 一 个 更 经 济 的 方式 : 简单 概括 就 是 场景 图 被 放置 在 分 布 式 共享 内 存 中 ， 所 有 副本 之 间 自 
动 同步 。 从 应 用 程序 员 的 角度 来 看 ， 多 个 主机 共享 一 个 单一 的 共同 场景 图 。 任 何 应 用 到 部 分 
场景 图 的 操作 反映 到 其 他 参与 的 主机 上 。 这 种 同步 方式 对 于 程序 员 来 说 是 几乎 完全 透明 的 。 

分 布 式 Open Inventor 内 部 工作 情况 如 下 : 信息 传递 用 于 同步 场景 图 副本 OLA 13.8). 
通过 安 疫 一 个 观察 者 监视 副本 场景 图 的 所 有 改变 。 在 进行 字段 值 改变 或 者 场景 图 拓扑 关系 改 


传递 更 新 
a| DIV 传感器 | jy 
A 


2 网 络 





K 13.8 主 从 配置 下 的 字段 更 新 示例 。 当 对 主 端 中 的 字段 (本 例 中 为 “高 度 ”) 进行 更 
改 时 ,通知 会 被 传递 到 观察 者 对 象 。 观 察 者 通过 网 络 发 送 更 新 。 在 从 端 中 信息 
馈 解 钼 ， 同 时 场景 图 中 的 复制 字段 被 更 改 
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变 等 修改 时 ， 观 察 者 检测 到 这 一 变化 并 更 新 信息 ， 然 后 将 更 新 的 信息 传递 给 所 有 具有 特定 节 
点 或 场景 图 副本 的 其 他 主机 。 节 点 和 字段 的 序列 化 可 被 用 于 在 不 需要 预先 确定 特定 的 消息 协 
议 的 条 件 下 更 新 信息 ， 而 市 太 或 者 字段 本 身 被 编排 或 者 逆 编 排 负 答 信 息 。 在 接收 端 ， 网 络 接 
听 病 解码 信息 并 将 更 新 应 用 于 副本 节点 。 如 果 和 需要 多 个 用 户 的 同等 访问 ， 这 种 简单 的 方法 既 
可 以 工作 于 主 从 设置 或 通过 某 种 形式 的 因果 关系 ,或 者 是 全 序 实 现 的 对 等 同步 。 


13.6 ”开发 者 支持 


目前 为 止 ， 提 出 的 软件 抽象 允许 熟练 的 软件 开发 人 员 用 强大 的 构建 块 设计 和 实施 增强 现 
实 应 用 程序 。 这 些 强 大 的 工具 非常 复杂 ， 而 且 在 实践 中 应 用 它们 并 不 容易 。 对 于 生产 工作 ， 
软件 开发 人 员 需 要 从 增强 现实 框架 中 得 到 简单 及 容错 的 支持 以 及 快速 运转 时 间 。 后 者 的 考虑 
特别 重要 ， 因 为 增强 现实 应 用 程序 很 少 会 从 完成 的 设计 中 执行 ; 与 之 相对 ， 大 量 的 原型 迭代 
细 化 ( Maclntyre 和 Feiner[1996] 称 之 为 “探索 性 编程 ”) 将 成 为 首选 的 工作 方式 。 这 些 需 求 
促使 脚本 语言 和 运行 时 重新 配置 设备 的 采用 。 


13.6.1 参数 配置 


在 增强 现实 应 用 程序 的 寿命 周期 内 ， 许 多 参数 会 发 生 改变 。 重 要 的 几 类 包括 输入 和 输出 
设备 的 设置 ; 应 用 程序 的 内 容 描 述 ， 尤 其 是 包含 真实 世界 对 和 象 的 三 维 场景 以 及 用 户 界面 的 各 
个 方面 ， 例 如 可 用 的 莱 单 功能 函数 。 与 在 应 用 程序 或 系统 源 代码 上 确定 这 些 参 数 相 比 ， 提 供 
某 种 形式 的 配置 文件 是 一 个 更 好 的 解决 方案 。 

配置 文件 的 最 简单 现实 只 是 文本 文件 中 的 一 系列 键 / 值 对 。 这 样 一 个 行 对 行 配置 通常 是 
在 设想 一 个 新 的 系统 或 应 用 程序 时 关于 构造 配置 的 第 一 步 。 其 主要 的 优点 是 简洁 ， 避 人 免 了 对 
配置 文件 的 复杂 解析 带 的 需求 。 尽 管 很 快 ， 当 加 入 多 个 物理 环境 (例如 人 台式 机 仿真 和 移动 端 
增强 现实 设置 ) 和 带 有 个 人 喜好 的 多 用 户 时 ， 无 序 键 / 值 对 的 集合 就 变 得 很 难处 理 。 


13.6.2 ”脚本 声明 


更 强大 的 方法 是 进行 层次 描述 格式 以 及 某 种 形式 的 支持 可 区 分 参数 名 称 等 元 信息 的 普通 
文本 标记 语言 。 分 层 格式 可 以 自然 地 表达 骸 套 格式 以 及 场景 图 或 数据 流 图 ， 通 常 “ 几 乎 ”是 
树 的 形式 ( 即 只 有 数 个 万 点 且 父 市 点 多 于 一 个 )， 当 被 一 个 线性 的 文本 形式 描述 时 必须 使 用 
特殊 的 句法 引用 。 代 码 13.1 是 一 个 分 层 场景 图 的 例子 。 


代码 13.1 13.6 的 VRML 模型 的 文本 表示 


#VRML V2.0 utf8 
Separator { 
Transform { 
translation 0 1.5 0 
scale 0.5 1.5 1 
children[ 
Shape { 
appearance Appearance { 
material Material { diffuseColor 0.8 0 0.2 } 
} 
geometry Sphere{ radius .5 } 
} 


Transform { 
translation 0 0.5 0 
children [ 
Shape { 
appearance Appearance { 
texture ImageTexture { url “brick.gif” } 
} 
geometry Box { size 1 0.5 1 } 
} 
] 
} 
} 


在 线 信 息 系 统 的 愿望 是 维持 人 可 以 理解 、 机 天 可 以 处 理 的 通用 代理 ， 促 使 了 可 
扩展 标记 语言 (XML ) 的 发 展 。 使 用 新 XML 语言 的 方便 性 和 其 解析 处 理工 具 的 易 用 
性 ， 使 得 XML 广泛 用 于 作为 配置 工具 的 原 格 式 。 人 例如， 基于 XML 的 配置 格式 用 于 
OpenTracker[Reitmayr and Schmalstieg 2005], Tinmith[Piekarski and Thomas 2003], 
MORGAN 的 X3D 场景 图 [Ohlenburg et al. 2004] 等 。 

场景 图 和 数据 流 图 的 分 层 结构 描述 在 很 大 程度 上 决定 了 一 个 应 用 程序 的 内 容 和 表现 。 它 
不 仅仅 是 一 个 配置 帮助 ， 更 应 该 被 看 成 是 脚本 声明 或 编程 。 层 次 输入 描述 被 有 效 地 解析 为 增 
强 现 实 框架 的 数据 结构 ， 并 在 增强 现实 运行 时 系统 中 解释 。 这 个 运行 时 解释 的 一 个 重要 方面 
是 建立 在 场景 图 或 数据 流 图 节点 上 的 行为 。 每 个 节点 可 以 看 作 一 个 小 的 状态 机 ， 当 接收 事件 
时 改变 其 内 部 状态 并 通过 设置 输出 触发 相应 的 行为 。 通 过 复杂 图 形 的 脚本 声明 ， 较 大 的 状态 
机 就 可 以 通过 多 个 单 节 点 建立 。 

这 些 状态 机 可 以 通过 羽翼 渐 丰 的 编程 语言 控制 。 一 些 增强 现实 的 研究 原型 系统 利用 了 与 
人 工 智能 领域 密切 相关 的 脚本 语言 。 例 如 ，Avango[Tramberend 1999] 提供 了 一 种 面向 所 有 
对 象 的 功能 性 编程 语言 与 方案 的 结合 。 功 能 性 语言 的 选择 对 于 面向 系统 的 应 用 程序 而 言 可 能 
在 某 种 程度 上 并 不 容易 ， 但 是 方便 了 数据 结构 和 算法 的 表达 。 多 年 来 ， 哥 伦比 亚 大 学 的 移 
动 增强 现实 研究 项 目 文 持 某 些 脚本 语言 ， 包 括 面向 对 象 的 分 布 式 计算 语言 Obliq [Najork and 
Brown 1995][Maclntyre and Feiner 1998] 和 基于 规则 的 JESS[Friedman-Hill 2003], 一 种 基于 
Java 市 有 类 似 LISP 句法 的 专家 系统 脚本 语言 。 正 如 在 本 草 前 面 所 讨论 的 那样 ,移动 增强 现 
实 系统 的 动态 需求 被 认为 使 得 通过 实时 的 用 户 界面 系统 主动 管理 增强 现实 用 户 界面 变 得 十 分 
必要 ， 这 可 以 使 用 一 个 实时 基于 规则 的 专家 系统 架构 有 效 地 实现 [Hollerer 2004]. 

一 个 明确 用 于 各 种 系统 创建 应 用 程序 执行 模型 的 常见 概念 是 复杂 状态 机 的 管理 源 于 分 层 
声明 格式 。 例 如 ，alVRed[Beckhaus et al. 2004] 和 APRIL[Ledermann and Schmalstieg2005] 
分 别 是 Avango[Tramberend 1999] 和 Studierstube[Schmalstieg et al. 2002] 的 数字 叙述 故事 的 
拓展 。 他 们 主要 的 设计 思想 是 将 故事 表达 为 一 个 非 线性 状态 序列 ， 每 个 故事 用 特定 的 虚拟 
现实 或 增强 现实 表示 ,包含 的 三 维 多 媒 体内 容 和 交互 功能 使 得 用 户 能 够 触发 到 后 续 状 态 的 
转换 。 这 些 运 行 时 引擎 直接 在 一 个 扩展 的 状态 机 场景 图 表示 上 操作 。 脚 本 状态 机 的 其 他 用 
途 包括 通过 数据 流 的 三 维 交 互 技 术 原 型 设计 ， 例 如 Unit [Olwal and Feiner 2004] 或 CUIML 
[Sandor and Reicher 2001]. 


Kt RF 267 


13.6.3 RHF: 增强 现实 导游 


增强 现实 导游 应 用 程序 的 特色 是 一 个 虚拟 动画 角色 作为 导游 带领 参观 一 所 大 学 。 用 户 守 
戴 着 囊 有 头 戴 显示 需 的 移动 增强 现实 系统 ( 见 图 13.4 )， 通 过 用 户头 戴 的 摄像 机 跟踪 放置 在 
建筑 物 墙壁 的 标志 实现 室内 跟踪。 由 于 系统 知道 这 些 标志 在 一 个 与 真实 环境 配 准 的 、 精 确 测 
量 的 虚拟 建筑 物 模型 中 的 确切 位 置 ， 因 此 通过 这 些 标志 可 以 在 这 个 区 域 定 位 用 户 。 

虚拟 导游 角色 被 放置 在 真实 建筑 物 的 参考 系 中 ( 见 图 13.9 )。 在 漫游 参观 时 ， 导 游 通 过 
动画 、 二 维和 三 维 视觉 元 素 以 及 声音 提供 协助 以 找到 选 定 的 目的 地 ， 同 时 提供 不 同房 屋 及 工 
作 在 其 中 人 物 的 位 置 相关 解说 。 由 于 导游 了 解 建 筑 物 的 几何 形状 ， 用 户 会 感觉 似乎 走 在 真正 
的 楼 梯 上 并 穿 过 真实 的 房 门 和 走廊 。 
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图 13.9 ”从 穿着 移动 增强 现实 背包 系统 用 户 的 头 戴 显示 器 中 捕获 的 室内 导游 应 用 程序 视 
图 。 当 用 户 在 建筑 物 中 漫游 时 ， 建 筑 模型 的 微型 世界 视图 和 位 置 相关 的 平视 显 
示 希 三 加 图 像 共 同 呈 现 给 用 户 〈 见 彩 捅 ) 


这 套 导 游 系统 使 用 Studierstube 框架 和 两 个 先前 的 组 件 来 实现 ， 包 括 一 个 可 以 生成 和 可 
视 化 的 导航 系统 以 及 一 个 动画 代理 组 件 。 这 两 个 组 件 与 APRIL 脚本 语言 相关 ， 使 用 状态 机 
描述 事件 和 动作 的 序列 。 

游览 本 身 通过 APRIL 故事 板 建 模 为 状态 机 。 图 13.10 给 出 了 完整 状态 引擎 的 一 小 部 分 。 
游览 的 单独 站 点 被 建 模 为 状态 ， 当 用 户 到 达 时 触发 线性 演示 。 建 筑 物 的 结构 和 导游 的 不 同方 
式 ( 线 性 或 自由 模式 ) 由 转换 融和 超级 状态 建 模 。 


13.6.4 程序 脚本 


当 声明 式 脚 本 不 足以 灵活 地 表达 和 定制 应 用 程序 逻辑 时 ， 可 以 使 用 程序 脚本 语言 。 程 序 
语言 的 表达 能 力 一 般 不 强 于 声明 式 语 言 ， 然 而 ， 前 面 描述 的 声明 式 脚 本 语言 在 场景 图 和 数据 
流 图 中 被 设计 为 节点 上 的 一 个 薄 层 。 因 此 ， 声 明 式 脚本 语言 相对 而 言 更 为 专业 ， 仅 提供 有 限 
的 通用 计算 功能 。 

程序 语言 可 以 用 作 虚 拟 现实 或 者 增强 现实 系统 唯一 的 脚本 语言 ， 也 可 以 与 声明 式 脚 本 
结合 使 用 。 一 个 纯粹 的 程序 解决 方案 的 案例 是 ImageTclAR [Owen et al. 2003]， 该 案例 使 用 
TCL 语言 和 TCL 图 像 库 等 TCL 库 集 。 通 过 TCL 代码 解释 ImageTclAR 可 以 进行 快速 模型 
设计 ， 它 不 提供 数据 流 等 先进 的 架构 理念 ， 这 意味 着 应 用 程序 逻辑 通过 纯粹 的 代码 实现 。 目 


268 RAZ 


前 ， 已 经 开发 了 许多 新 的 脚本 语言 ， 包 括 JavaScript, Python, Lua 以 及 编译 的 C# 等 ， 对 于 
当今 的 程序 员 来 说 更 加 熟悉 和 方便 。Argon 采用 了 聚焦 网 络 的 方法 ， 将 WebKit ite AIR BL 
实 浏 览 估 从 而 可 以 使 用 任何 与 网 页 相关 的 语言 (如 HTML、PHP EX JavaScript) 来 表达 内 容 
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图 13.10 ”导游 应 用 程序 的 故事 被 建 模 为 一 个 分 层 状态 机 ， 其 中 室内 环境 为 主要 状态 。 
由 Florian Ladermann 提供 


大 多 数 增强 现实 框架 采用 程序 脚本 作为 声明 式 机 制 的 补充 而 不 是 替代 。 这 种 方法 通常 通 
过 在 增强 现实 框架 中 建立 一 种 调用 也 数 解释 脚本 代码 的 机 制 ， 因 此 框架 完全 通过 脚本 代码 控 
制 ， 而 反 转 控制 则 不 受 影响 。 例 如 VRML 中 的 PROTO 组 成 将 JavaScript HA Ae HR. 
对 于 每 一 个 传递 到 PROTO 节点 的 事件 调用 用 户 定 义 的 JavaScript ea. AT, WW AA AT AE 
的 纯 本 地 行为 给 这 样 的 脚本 节点 加 入 了 某 种 限制 。 例 如 ， 在 PROTO 中 的 JavaScript 函数 从 
整个 场景 图 中 搜索 特定 数据 项 将 会 变 得 烦琐 或 者 甚至 不 可 能 实现 。 
13.6.5 混合 语言 编程 

一 个 典型 的 方法 是 将 脚本 与 编译 语言 编程 相 结 合 : 时 间 要 求 高 且 递 归 一 般 由 C 或 C++ 
实现 ， 然 后 通过 目 定 义 的 场景 图 或 数据 流 节 点 或 者 通过 绑 定 到 一 个 编程 脚本 工具 显示 。 新 功 


能 的 使 用 可 以 方便 地 通过 脚本 访问 ， 因 此 大 多 数 实际 应 用 程序 开发 和 测试 都 不 需要 编译 器 的 
长 时 间 周 转 即 可 完成 。 


13.6.6 ”运行 时 重 配置 


最 后 ,我 们 关注 运行 时 重 配置 的 问题 。 开 发 一 个 灵活 的 、 面 向 对 象 的 增强 现实 框架 结构 
的 主要 原因 是 构建 非 第 规 用 户 界面 的 内 在 复杂 性 : 如 果 各 种 机 制 和 设备 集成 在 一 个 单一 的 系 
统 中 ， 就 会 增加 风险 ,特别 是 在 开发 和 调试 时 ， 至 少 会 有 一 个 组 件 故障 或 失效 。 传 统 的 方法 
将 应 用 程序 生命 周期 分 成 几 个 独立 的 初始 化 和 运行 时 操作 阶段 ， 这 对 于 快速 原型 设计 并 不 适 
用 ， 其 原因 是 每 当 一 个 问题 发 生 时 都 需要 重启 整个 系统 。 
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在 增强 现实 框架 结构 中 的 多 个 组 件 (如 果 不 是 全 部 ) 能 够 进行 运行 时 重 配 置 是 必要 的 。 
为 了 满足 这 一 要 求 ， 必 须 对 系统 组 件 的 接口 进行 设计 以 保证 当 出 现 变 化 时 可 以 触发 一 个 独立 
的 初始 化 。 例 如 ， 当 建立 一 个 增强 现实 系统 将 特殊 的 跟 踊 疲 置 提供 的 数据 流传 送 到 应 用 对 和 象 
时 ， 这 个 系统 应 该 能 够 断 开 这 个 跟踪 狐 置 ， 启 动 为 一 个 蔡 补 跟 踩 疙 置 并 重新 将 新 安 置 的 数据 
流连 接 到 应 用 对 象 上 。 在 运行 时 实现 这 样 的 灵活 性 是 需要 技巧 的 ， 因 为 开发 人 员 通 常 为 了 保 
持 代 码 简 单 不 能 使 用 太 多 关于 系统 设置 不 变 的 假设 。 尽 管 如 此 ， 可 以 通过 极 大 地 简化 迭代 开 
发 和 运行 时 调试 得 到 回报 ， 特 别 是 在 分 布 式 环境 中 。 

在 运行 时 ， 单 独 的 原始 重 配置 能 力 不 能 完全 满足 应 用 程序 开发 人 员 的 需求 。 通 过 合适 的 
调试 接口 为 检查 和 重 配置 共享 实时 系统 状态 也 是 必要 的 ， 从 而 可 以 允许 操作 通 篆 不 提供 给 用 
户 的 系统 内 在 属性 。 一 个 提供 系统 数据 全 面 通用 访问 的 关键 解决 方案 是 巧妙 运用 反射 : 如 果 
运行 时 对 象 系统 能 够 反射 ， 就 可 以 在 不 需要 开发 人 员 过 多 关注 的 情况 下 目 动 枚 举 计算 系统 状 
态 。 系 统 可 以 壳 历 运行 时 对 象 并 将 所 有 的 项 目 存 储 和 显示 到 命令 行 或 图 形 用 户 界 面 。 

例如 ,Tinmith [Piekarski and Thomas 2003] 将 层级 对 象 存储 为 网 络 文件 系统 NFS 的 枚 举 。 
在 男 一 台 主 机 上 使 用 NFS 客户 端 可 以 让 开发 人 员 使 用 传统 的 UNIX 文件 工具 操作 对 象 存 储 。 
{E DWARF [Macwilliams et al. 2003] 中 可 以 使 用 一 个 专门 的 图 形 可 视 化 工具 在 运行 时 对 分 布 
式 对 象 的 数据 流 进行 显示 和 修改 。VjControl [Just et al. 2001] 是 一 个 用 于 被 称 为 VR Juggler 
[Bierbaum et al. 2001] 虚拟 现实 框架 的 调试 前 问 ， 它 允许 开发 者 通过 网 络 控 制 VR Juggler 的 
内 部 状态 。Avalon [Seibert and Dihne 2006] 采用 了 一 个 特别 聪明 的 解决 方案 ,通过 目 动 生成 
HTML 页 面 的 网 络 服务 需 显 示 数 据 流 和 场景 图 ， 从 而 可 以 实现 数据 流 以 及 场景 图 的 检查 和 操 
作 。 因 此 ， 任何 网 络 浏览 絮 痢 可 用 于 调试 。 该 解决 方案 的 优点 是 灵活 度 高， 特别 是 当 使 用 移 
动 设备 时 ,通常 是 不 可 能 直接 在 上 面 进行 常规 调试 的 。 


13.6.7 ”选择 一 种 增强 现实 平台 


本 章 描述 了 成 功 的 增强 现实 平台 和 项 目 背 后 的 软件 工程 原则 。 事 实 上 ， 许 多 当今 成 功 的 
增强 现实 软件 库 都 使 用 这 些 原则 或 者 至 少 是 其 中 的 一 部 分 ， 但 是 这 样 的 原则 也 存在 一 些 问 
题 : 软件 开发 人 员 在 实施 新 的 想法 时 应 该 使 用 哪些 库 和 系统 支持 工具 来 获得 最 优 支 持 呢 ? 当 
然 答案 取决 于 开发 人 员 的 具体 需求 ， 硬 件 和 软件 平台 的 支持 可 能 是 一 个 关键 考虑 因素 ， 文 持 
跟 躁 的 设备 类 型 和 质量 显然 是 男 一 个 重要 的 决定 因 系 。 同 样 ， 内 容 文 持 也 是 为 一 个 重要 因 
素 : 因为 很 多 增强 现实 应 用 的 一 个 重要 方面 是 有 吸引 力 的 引人入胜 内 容 ， 目 前 许多 开发 平台 
与 游戏 引擎 相 结 合 ， 支 持 哪 些 平 台 和 哪些 输入 设备 可 用 会 影响 平台 的 选择 。 最 后 文 持 的 编程 
语言 、 运 行 时 系统 和 快速 建 模 工具 对 于 开发 人 员 同 样 非常 重要 ， 

目前 对 增强 现实 平台 呈现 积极 支持 的 景象 ， 同 时 SDK 也 在 快速 更 新 变化 中 。 已 经 有 
很 多 这 方面 的 工具 可 用 ， 包 括 一 些 业 内 主流 公司 的 产品 ， 例 如 PTI Vuforia、 谷 歌 的 Project 
Tango 以 及 微软 的 HoloLens 平 台 等 。 蔷 果 公 司 在 2015 年 购买 了 增强 现实 平台 提供 商 
Metaio， 成 了 增强 现实 领域 的 引领 者 。 另 一 个 建立 增强 现实 平台 解决 方案 的 供 货 商 是 Total 
Immersion， 开 发 了 D’Fusion 软件 。 我 们 在 本 书 的 对 应 网 站 上 给 出 了 许多 其 他 库 和 工具 集 的 
网 站 地 址 (http://www.augmentedrealitybook.org )。 


13.7 小结 
增强 现实 的 软件 工程 要 求 非常 苛刻 ， 其 原因 在 于 增强 现实 需要 一 个 复杂 的 实时 软件 架 
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构 ， 通 常 还 需要 支持 分 布 式 操 作 ， 一 系列 关键 的 抽象 概念 可 以 用 来 解决 这 些 问 题 。 一 个 重要 
的 概念 是 使 用 基于 数据 流 的 分 布 式 对 象 系统 。 管 线 和 过 滤器 架构 可 以 让 程序 员 独 立 开发 和 测 
试 组 件 ， 然 后 再 串 在 一 起 创建 工作 应 用 程序 。 这 种 方法 的 男 一 个 优点 是 通过 在 网 络 中 里 越 多 
台 主 机 进行 组 件 连接 ， 自 然 地 扩展 成 分 布 式 系统 。 另 一 个 重要 的 解决 方案 是 使 用 层次 场景 图 
对 增强 现实 环境 中 的 虚拟 和 真实 对 象 进行 建 模 。 通 过 连接 场景 图 和 数据 流 图 ， 可 以 用 类 似 图 
的 结构 表示 一 个 完整 的 增强 现实 处 理 管线 。 此 外 ,使 用 反射 的 系统 架构 有 很 多 优点 : 除了 简 
化 网 络 的 透明 性 ， 反射 还 有 助 于 为 快速 原型 构建 、 实 时 检查 和 构成 增强 现实 系统 框架 对 象 集 
合 的 调试 提供 脚本 语言 绑 定 。 
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我 们 已 经 进入 信息 时 代 ， 数 字 技 术 已 经 在 很 大 程度 上 摆脱 了 物理 限制 ， 正 在 以 前 所 未 有 
的 速度 迅速 发 展 。 最 初 用 来 预测 集成 电路 中 晶体 管 的 数量 以 指数 形式 增长 的 摩尔 定律 在 信息 
技术 的 整体 发 展 中 也 引领 了 类 似 的 增长 。 

信息 技术 使 得 我 们 日 常生 活 发 生 的 第 一 次 重大 改变 发 生 在 20 世纪 80 年 代 ， 即 办 公 室 
工作 从 模拟 到 数字 的 转变 。 目 20 世纪 90 年 代 以 来 ， 我 们 日 常生 活 的 许多 领域 (包括 言语 交 
流 、 邮 件 、 摄 影 和 音乐 欣赏 等 ) 正在 以 不 可 逆转 的 方式 通过 信息 技术 和 互联 网 得 到 改变 。 在 
之 后 的 几 年 中 ， 社 会 计算 、 移 动 计 算 和 云 使 得 信息 的 获取 更 为 普遍 。 

Weiser 对 普 适 计算 的 描述 在 某 种 程度 上 已 经 预测 了 这 种 发 展 态 势 。Weiser 在 1991 年 首 
次 阐述 到 今后 每 个 人 会 有 很 多 电脑 ， 这 在 当时 看 起 来 很 牵强 且 不 太 可 能 。 如 今 不 仅仅 是 专 
业 的 信息 技术 人 员 ， 许 多 人 在 旅行 时 常常 会 携带 许多 不 同 的 设备 ， 并 且 这 些 设备 与 现 有 的 
WiFi 热点 等 基础 设施 的 集成 、 与 大 屏 疾 或 者 共享 显示 设备 的 无 线 显示 连接 ， 甚 至 是 超市 的 
收银 台 正 在 变 得 更 加 容易 。 

但 是 如 今 的 普 适 计算 并 不 仅仅 是 Weiser 预测 的 平静 计算 。 相 反 ， 有 时 对 于 我 们 生活 的 
每 一 个 方面 都 有 一 个 专门 的 智能 手机 应 用 程序 ， 对 于 每 件 事情 都 有 一 个 专门 的 应 用 程序 的 现 
状 越 来 越 令 人 困扰 。 

增强 现实 是 一 个 有 前 途 的 解决 方案 。 它 可 以 连续 使 用 ， 包 括 多 种 显示 方式 ， 例 如 头 戴 
式 、 穿 戴 式 或 空间 增强 现实 显示 。 如 今 它 主要 用 于 娱乐 相关 领域 ， 如 游戏 和 广告 。 然 而 ， 大 
量 的 商业 投资 也 正在 致力 于 开发 这 些 应 用 领域 之 外 的 新 虚拟 现实 和 增强 现实 技术 。 

在 本 书 的 最 后 一 曹 ， 我 们 讨论 增强 现实 技术 需要 改进 并 有 望 获得 广泛 应 用 的 几 个 领域 。 
通过 这 些 讨论 ， 我们 冒 厦 预测 错误 的 风险 试图 预测 增强 现实 技术 未 来 的 发 展 。 读 者 可 以 自行 
对 这 些 预 测 做 判断 ， 时 间 会 证 明 这 些 预 测 正确 与 否 。 


14.1 商业 案例 驱动 力 


增强 现实 技术 的 商用 不 能 仅 依赖 于 增强 现实 的 概念 演示 ， 需 要 让 消费 者 认为 物 有 所 值 。 
一 般 来 说 ， 我 们 可 以 将 增强 现实 用 户 分 为 专业 用 户 和 普通 消费 者 。 


14.1.1 专业 用 户 


对 于 专业 用 户 ， 新 技术 是 一 种 可 以 使 目标 更 快 (因此 更 便宜 ) 或 者 更 高 质量 实现 的 潜在 
工具 。 在 专业 领域 ， 如果 使 用 新 工具 可 以 市 来 足够 的 实质 收益 ， 那 么 即使 新 设备 硬件 的 购 头 
和 使 用 需要 更 大 的 代价 ， 专 业 用 户 也 认为 这 是 可 以 接受 的 。 在 这 种 情况 下 ,使 用 者 其 至 可 以 
忍受 人 因 工 程 学 的 限制 ， 例 如 需要 携带 重型 设备 。 这 就 如 同 在 建筑 工地 的 工程 师 或 手术 室 中 
的 外 科 医 生 所 使 用 的 工具 一 样 。 

与 此 同时 ， 专 业 用 户 期 望 使 用 这 种 新 技术 时 可 靠 性 很 强 ， 并且 可 以 持续 带 来 收益 。 只 
能 在 90% 的 时 间 内 工作 的 新 技术 可 能 会 被 认为 是 不 够 好 的 ， 但 专业 用 户 也 通常 不 愿意 改变 ， 
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因为 这 样 可 能 会 扰乱 他 们 已 有 的 工作 流程 ， 为 了 让 新 工具 有 竞争 力 就 必须 具有 明显 的 优势 。 

因此 ， 专 业 领 域 的 增强 现实 应 用 必须 具有 和 鲁 棒 性 并 且 经 过 充分 测试 。 它 们 可 能 很 昂贵 、 
需要 特殊 的 人 硬件， 其 至 使 用 起 来 很 困难 (可 能 要 通过 训练 才能 学 会 使 用 )， 但 是 这 些 应 用 必 
须 能 提供 传统 解决 方案 所 不 能 提供 的 实质 性 收益 。 就 软件 质量 而 言 ， 这 意味 着 软件 工程 的 工 
作 量 比 研 究 原型 系统 增加 了 十 售 。 这 同时 要 求 增强 现实 应 用 与 企业 信息 系统 等 已 有 资源 的 深 
度 整 合 。 


14.1.2 ”普通 消费 者 

因为 接受 新 技术 并 不 需要 持久 的 获 益 ， 临 时 起 意 的 终端 消费 者 接受 新 技术 的 门槛 较 低 。 
这 使 得 增强 现实 广告 和 游戏 在 短期 内 具有 吸引 力 ， 其 中 好 玩 和 有 趣 的 体验 就 是 其 想 要 达到 的 
效果 。 当 然 ， 新 奇效 应 和 初始 兴奋 感 的 迅速 消退 ， 无 法 弥补 该 技术 的 缺点 。 技 术 问 题 由 于 缺 
乏 一 个 难以 建立 的 新 平台 这 一 事实 而 更 加 严重 ， 面 向 消费 者 的 增强 现实 只 能 是 一 个 安装 在 用 
户 已 有 的 硬件 装置 上 的 软件 解决 方案 。 消 费 级 的 应 用 必须 容易 使 用 ， 几 乎 不 需要 训练 ， 仅 在 
少数 情况 下 需要 头 戴 式 显 示 器 等 外 设 。 此 外 ， 用 户 对 内 容 的 质量 具有 很 高 的 期 望 。 用 户 已 经 
习惯 了 当今 无 所 不 在 的 高 视觉 质量 主流 电影 和 游戏 ， 这 同样 包括 增强 现实 。 他 们 不 太 可 能 容 
忍 有 抖动 的 跟踪 和 低 多 边 形 数量 的 模型 。 

对 于 专业 用 户 和 普通 消费 者 来 说 ， 依 赖 于 传统 特征 及 调整 良好 的 技术 和 内 容 的 应 用 将 比 
全 新 的 半成品 具有 更 好 市 场 。 与 之 相对 ， 新 开发 的 产品 可 能 需要 花费 比 预想 更 长 的 时 间 才 能 
进入 商业 领域 。 特 别 地 ， 增 强 现实 应 用 在 完全 商业 化 之 前 需要 依赖 其 他 基础 设施 (如 室内 地 
图 的 在 线 服务 等 )。 


14.2 增强 现实 开发 者 的 愿望 清单 


显然 ， 移动 计算 是 增强 现实 的 关键 使 能 技术 。 我 们 在 移动 过 程 中 可 以 使 用 智能 手机 等 移 
动 设备 的 本 质 计算 能 力 。 然 而 智能 手机 是 多 用 途 设 备 ， 并 上 且 必须 在 尺寸 、 重 量 、 能 耗 以 及 不 
能 被 忽略 的 成 本 等 方面 进行 困难 的 折 中 。 

技术 上 可 以 实现 的 许多 特征 不 可 能 出 现在 实际 设备 中 ， 其 原因 来 源 于 与 其 他 更 基本 要 
求 的 冲突 。 例 如 ， 不 能 因为 添加 传感器 而 过 于 影响 电池 寿命 ， 因 此 在 集成 新 传感器 时 就 需 
要 将 其 功 耗 水 平 调整 到 适中 。 其 他 产品 的 决策 由 成 本 驱动 ， 如 果 需 求 足够 明显 时 就 比较 容 
易 被 改变 。 例 如 ， 目 前 智能 手机 只 有 一 个 单独 的 摄像 机 处 理 器 ， 不 能 同时 提供 正面 和 背面 
摄像 机 的 视频 。 这 个 限制 的 主要 原因 可 能 是 第 二 个 摄像 机 处 理 器 的 成 本 ， 由 此 导致 增强 现 
实 应 用 程序 无 法 使 用 两 个 摄像 机 进行 同时 跟踪 。 最 近 几 代 的 硬件 已 经 消除 了 这 一 限制 ， 显 
然 是 为 了 啊 应 对 方便 地 捕获 “ 自 扫 ”图片 (例如 摄像 机 应 用 中 的 画 中 画 功 能 ) 等 新 笑 特 征 
的 需求 。 

我 们 认为 通过 如 下 修改 可 以 使 当前 的 移动 设备 更 适用 于 智能 电话 上 的 手持 增强 现实 ， 
同时 不 会 严重 影响 其 他 设备 功能 或 显著 增加 成 本 。 接 下 来 的 头 戴 式 增强 现实 将 只 是 一 个 如 
何 建立 智能 手机 与 带 有 适合 传感器 的 头 戴 式 组 件 的 无 线 连接 问题 ， 而 智能 手机 依旧 可 以 放 
在 口袋 里 。Google (Tango MA) 和 微软 (HoloLens) 等 大 型 公司 已 经 开始 实现 其 中 的 一 
些 目标 ， 但 尚未 将 成 果 带 到 大 规模 的 消费 市 场 。 以 下 考虑 旨 在 提供 这 类 应 用 的 背景 ， 与 特 
定 产品 无 关 。 
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14.2.1 摄像 机 底层 API 


摄像 机 模块 通常 是 完全 独立 的 ， 并 且 仅 可 通过 调用 用 于 终 闪 用 户 应 用 程序 的 高 层 功 能 才 
可 访问 。 对 摄像 机 的 控制 是 间接 的 ， 聚 焦 或 日 平衡 等 众多 摄像 机 设置 并 不 对 用 户 开 放 ， 也 不 
能 被 关闭 。 这 对 增强 现实 来 说 是 不 幸 的 ， 因 为 增强 现实 是 可 以 显著 地 受益 于 对 摄像 机 硬件 的 
完全 控制 。Frankencamera 项 目 [Adams et al. 2010] 已 经 表明 可 以 通过 绕 过 操作 系统 对 摄像 
机 进行 底层 访问 ， 但 这 需要 访问 权限 并 且 破 坏 了 硬件 抽象 。 但 即使 Frankencamera 也 无 法 访 
问 摄像 机 子 系统 的 仍 人 式 图 像 处 理 器 ， 这 是 一 个 宝贵 的 资源 。 操 作 系 统 供应 商 应 该 引 和 人 一 个 
底层 API 来 提供 对 摄像 机 硬件 的 完全 控制 。 


14.2.2 ”多 摄像 机 


微型 摄像 机 非常 便宜 ， 因 此 可 以 在 移动 设备 中 内 置 多 个 摄像 机 。 如 今 的 标准 智能 手机 通 
过 后 置 摄像 头 拍 照片 和 录 视 频 ， 通 过 另 一 个 较 低 分 辩 率 的 前 置 相 机 进行 视频 通话 。 一 些 供 货 
商 走 得 更 远 : 短期 销售 的 Amazon Fire 手机 (在 2014 年 6 月 至 2015 年 8 月 间 由 亚马逊 进行 
销售 ) 内 置 了 四 个 用 于 实时 面部 跟踪 的 前 向 摄像 头 。 多 摄像 机 可 以 用 于 立体 匹配 ， 尽 管 安 装 
在 手持 设备 上 的 摄像 机 之 间 的 最 大 基线 会 相当 小 。 同 时 ,来 自 多 个 摄像 机 的 元 余 图 像 也 可 以 
被 用 于 与 增强 现实 相关 的 许多 应 用 中 ， 包 括 度量 重建 、 光 场 捕获 (其 副产品 是 更 方便 的 实时 
全 景 图 像 ) 以 及 高 动态 范围 成 像 和 其 他 形式 的 计算 摄影 。 


14.2.3 ”大 视 场 摄像 机 


大 视 场 摄像 机 可 以 在 单 张 图 像 中 捕获 更 多 的 环境 信息 。 文 持 大 视 场 的 光学 透镜 更 加 曲 
贵 ， 同 时 与 紧凑 的 外 壳 设 计 产 生 冲 突 。 然 而 ， 大 视 场 摄像 机 可 以 为 基于 图 像 的 检测 和 跟踪 提 
供 必 要 的 输入 [Oskiper et al. 2015]。 实 时 应 用 程序 必须 处 理 输入 其 中 的 信息 ， 因 此 高 质量 的 
传感器 至 关 重 要 。 例 如 ， 据 预测 ， 微 软 公司 的 HoloLens 除了 深度 摄像 机 和 前 疝 场 景 摄像 机 
之 外 ,使 用 耳机 两 侧 各 两 个 环境 感知 摄像 机 覆盖 了 较 大 的 视 场 。 


14.2.4 ERR 


在 微软 成 功 地 推出 Kinect 之 后 ， 特 别 是 在 增强 现实 / 虚拟 现实 研究 领域 出 现 了 基于 结构 
光 或 飞行 时 间 原 理 的 微型 深度 传感器 的 开发 浪潮 。 英 特 尔 的 RealSence 等 商用 传 感 顺 已 随 移 
动 设备 提供 ， 而 谷歌 Tango 平台 正在 越 来 越 多 地 被 安装 在 大 量 设备 中 。 虽 然 这 些 传 感 带 的 功 
能 各 不 相同 ， 但 三维 传 感 是 移动 增强 现实 的 一 个 重要 补充 。 直 接 获 得 真实 环境 的 三 维 表 征 可 
以 避免 移动 设备 上 的 大 量 计算 ， 同时 可 以 减少 能 量 消耗 (尽管 传 感 带 本 号 可 能 会 消耗 一 定 的 
能 量 )。 更 重要 的 是 ， 依 赖 于 深度 传 感 硕 的 增强 现实 系统 不 必 担 心 不 利 的 环境 条 件 会 影响 计 
算 机 视觉 ， 例 如 可 能 破坏 常规 图 像 处理 的 不 良 照明 。 因 此 ， 我 们 预测 作为 下 一 代 设 备 高 级 功 
能 模块 的 深度 传 感 硕 将 很 快 会 得 到 普及 。 

红外 传 感 技 术 (用 于 夜 视 和 热 传 感 ) 已 得 到 显著 改善 ， 小 型 化 技术 和 低廉 的 价格 正在 使 
得 这 种 传感器 与 消费 设备 的 集成 变 得 很 有 意义 。 这 会 产生 在 低 照 明 环 境 中 的 新 增强 现实 应 用 
程序 (例如 ， 用 于 导航 和 协同 )。 

同样 ， 位 置 和 方向 传感器 性 能 的 提高 也 会 使 增强 现实 受益 匪 浅 ， 低 成 本 的 RTK GPS $ 
术 和 激光 陀螺 仪 (如 第 3 章 所 讨论 的 ) 将 为 位 次 感知 技术 提供 新 的 解决 方案 ， 同 时 显 若 提高 
位 姿 计 算 的 鲁 棒 性 。 


14.2.5 ”统一 内 存 


移动 设备 通常 具有 统一 的 存储 架构 ， 即 CPU 和 GPU 处 理 器 内 核 共 享 可 用 内 存 。 然 而 ， 
这 种 设计 针对 低 成 本 和 低能 耗 进行 了 优化 。 实 际 上 ， 必 须 在 内 核 之 间 共 享 可 用 的 内 存 带宽 ， 
同时 共享 内 存 体系 结构 并 没有 对 应 用 程序 开发 人 员 开 放 。 这 意味 着 数据 必须 在 CPU 和 GPU 
之 间 复 制 ， 这 种 方式 速度 很 慢 上 且 会 浪费 内 存 。 来 自 外 设 的 数据 流 ， 特 别 是 视频 数据 不 能 直接 
被 发 送 到 GPU 上 。 为 统一 存储 架构 开放 一 个 底层 接口 可 以 避免 这 种 低 效 的 变通 方法 。 但 这 
样 的 “ 裸 机 ”接口 将 更 难以 编程 ， 并 且 在 使 用 不 正确 时 可 能 会 破坏 操作 系统 的 稳定 性 。 我 们 
相信 在 这 个 领域 应 该 更 相信 开发 人 员 的 能 力 。 


14.2.6 移动 GPU 上 的 并 行 编程 


通用 的 图 形 处 理 单 元 ( GPGPU) 以 大 规模 并 行 方式 执行 任意 程序 。 移 动 GPU 的 设计 具 
有 与 桌面 设备 相同 的 能 力 ， 但 不 支持 全 部 的 GPGPU 编程 语言 。 OpenCL 仍 处 于 几乎 不 可 用 
的 实验 状态 ， 而 CUDA 仅 在 NVIDIA 最 新 一 代 的 移动 GPU 上 可 用 ， 目 前 还 没有 足够 数量 的 
用 户 群 。 对 于 图 像 处 理 和 立体 匹配 等 数值 算法 ，GPU 的 性 能 通常 远 超 CPU, BHE GPU 由 于 
热量 和 能 量 约束 不 能 开 足 马力 连续 运行 ， 在 需要 时 有 GPGPU 能 力 可 用 将 使 增强 现实 应 用 程 
序 功 能 更 加 强大 。 从 长 远 来 看 ， 通 过 在 CPU 或 GPU 的 专用 硬件 中 加 入 特殊 功能 可 以 降低 能 
量 需 求 。 我 们 坚信 开发 人 员 应 该 被 给 予 利 用 所 有 可 用 硬件 的 机 会 ， 从 而 在 使 用 专用 硬件 单元 
之 前 便 可 以 识别 重要 的 新 功能 。 


14.2.7 更 好 的 显示 设备 


目前 已 经 出 现 了 更 多 、 更 好 的 光学 透视 式 头 戴 显 示 器 ， 但 是 还 没有 出 现 我 们 每 个 人 所 期 
望 的 设备 。 最 近 的 研究 原型 显示 了 这 一 领域 可 能 的 发 展 方向 。 

第 一 个 可 以 显著 改善 增强 现实 体验 的 技术 进步 是 宽 视 场 显 示 需 。Oculus 和 HTC / Valve 
等 非 透视 显示 需 的 视 场 角 一 般 大 于 90。 。 相 比 之 下 ， 市 售 的 光学 透视 式 显 示 设 备 的 视 场 角 
一 般 小 于 30° 。 在 这 样 狭 罕 的 视 场 中 ， 用 户 必须 反复 移动 他 们 的 头 部 来 精确 地 聚焦 于 单个 
感 兴趣 的 对 象 ， 并 且 不 能 利用 周边 视觉 。 这 不 能 很 好 地 文 持 用 于 “监督 ”的 增强 现实 体验 的 
设计 ， 其 特征 是 通过 增强 提高 用 户 的 环境 感知 ， 同 时 也 没有 使 用 大 规模 增强 技术 来 扩大 用 户 
的 视 域 。 

当今 显示 技术 的 限制 导致 增强 现实 仅 能 提供 标签 和 小 的 三 维 对 象 等 简单 的 基于 点 的 注释 
这 一 想法 。 与 之 相对 ， 就 沉浸 感 而 言 ， 我 们 更 希望 将 增强 现实 想象 为 如 同 虚拟 现实 那样 ， 只 
是 真实 世界 发 挥 更 主要 的 作用 。 用 户 应 该 可 以 站 在 一 个 与 真实 世界 同等 规模 的 规划 建筑 模型 
计划 建造 地 点 的 前 面 ， 建 筑 模型 应 具有 真实 世界 相对 应 的 正确 照明 和 阴影 ， 用 户 可 以 完整 地 
体验 它 ， 甚 至 可 以 进入 这 样 的 建筑 模型 并 从 内 部 欣赏 它 。 类 似 于 那些 在 关注 视 域 连接 特定 遥 
远 对 象 的 宽 视 场 增强 现实 注释 的 新 型 高 端 虚拟 现实 仿真 能 力 [Ren et al. 2016] 已 经 给 人 留 下 
了 深刻 的 印象 。 新 型 光学 系统 设计 可 能 会 使 增强 现实 癌 前 迈 出 一 大 步 〈 另 见 第 2 EE) 

当前 阻碍 头 戴 式 显 示 需 (HMD) 广泛 应 用 的 最 大 因素 之 一 就 是 其 体积 过 于 庞大 。 因 此 小 
型 化 是 需要 改进 的 第 二 个 领域 。 增 强 现实 隐形 眼镜 的 想法 似乎 很 有 吸引 力 。 不 幸 的 是 ， 正 如 
Hainich 和 Bimber [2011] 所 提 到 的 ， 这 一 愿景 有 很 多 严重 的 阻碍 (必要 的 光学 原件 的 尺寸 、 
电源 以 及 耐久 性 和 健康 考量 )。 他 们 得 出 的 结论 是 实际 的 隐形 眼镜 显示 顺 只 是 想象 。 五 年 已 
经 过 去 了 ， 我 们 仍然 面临 着 与 独立 隐形 眼镜 显示 融 相 同 的 技术 障碍 。 然 而 ， 正 如 第 2 章 中 所 
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讨论 的 ， 近 眼 和 光 场 显示 技术 的 最 新 进展 至 少 给 更 加 小 型 轻 量 的 目 视 镜 市 来 了 希望 (也 有 项 
望 很 时 尚 )， 有 可 能 与 传统 的 隐形 眼镜 相 结合 提供 聚焦 和 滤 光 功能 。 

第 三 个 对 于 增强 现实 和 虚拟 现实 体验 具有 很 大 价值 的 改善 是 支持 变焦 。 在 常规 设计 中 ， 
显示 需 具 有 固定 的 焦距 。 仿 真 对 象 距离 和 显示 天 距离 之 间 的 差异 使 得 正确 感知 立体 图 像 变 
得 困难 。 即 使 是 经 过 训练 ， 在 观看 这 种 显示 设备 时 也 会 产生 疲劳 。 正 如 增强 现实 初创 公司 
Magic Leap 正在 进行 的 开发 那样 ， 文 持 可 变焦 距 [Huang et al. 2015] Bk A 1EM AEE AY SAN at 
将 提供 更 方便 的 观 视 体验 。 因 为 立体 图 像 对 必须 用 高 维 光 场 表 示 来 代替 [Wetzstein 2015], 
使 用 光 场 投影 的 商业 解决 方案 不 仅 需 要 新 的 硬件 ， 同 时 还 需要 改变 计算 机 图 形 软 件 。 第 一 个 
商业 化 的 光 场 显示 需 将 以 个 人 近 眼 显示 融 的 形式 出 现 ， 其 最 初 形态 可 能 要 比 读者 想象 得 更 举 
重 。 之 后 再 经 过 几 项 扩 术 突破 ， 投 影 体 显 示 技 术 可 以 通过 缝 制 在 我 们 所 穿 的 衣服 上 的 微型 投 
影 机 在 空中 创建 棚 棚 如 生 的 三 维 图 像 ， 从 而 提供 了 一 个 更 方便 的 社会 显示 方式 。 


14.3 ”户外 增强 现实 


移动 增强 现实 意味 着用 户 可 以 去 任何 地 方 。 实 际 上 ， 大 多 数 的 商业 增强 现实 应 用 场景 仍 
然 位 于 室内 ， 其 原因 在 于 在 户外 采用 增强 现实 技术 显然 更 加 困难 。 如 果 我 们 硕 望 增强 现实 成 
为 一 项 突破 性 技术 ， 它 必须 可 以 在 任何 地 方 工作 ， 特 别 是 在 户外 。 基 于 图 像 的 定位 是 户外 增 
强 现 实 中 最 具 挑 战 性 的 部 件 。 纯 粹 依赖 内 置 的 GPS 和 惯性 姿态 跟踪 需 等 传 感 硕 的 增强 现实 
体验 很 差 ， 所 以 我 们 不 认为 这 种 解决 方案 在 任何 实际 意义 上 可 以 称 作 户外 增强 现实 。 因 此 ， 
我 们 人 迫切 需要 户外 定位 的 相关 领域 得 到 改善 (以 及 在 较 小 程度 上 ， 任 何 形式 的 广 域 定 位 )。 


14.3.1 非 合 作用 户 


增强 现实 系统 必须 真正 易于 使 用 。 不 能 期 望 用 户 通过 与 他 人 合作 或 掌握 学 习 曲 线 来 学 会 
如 何 操 作 增 强 现实 系统 。 用 户 希 望 可 以 把 设备 从 口袋 里 取出 (更 好 的 方式 是 使 用 穿戴 设备 )， 
指 问 一 个 感 兴趣 的 地 方 然后 期 望 有 事情 发 生 。 然 而 ， 这 种 指点 拍照 方法 所 涉及 的 行为 极 难处 
理 。 例 如 ， 用 户 可 能 会 突然 快速 移动 并 将 摄像 机 (负责 计算 机 视觉 ) 指 同 白 色 墙 壁 或 天 空 等 
不 适合 的 位 置 。 一 个 成 功 的 增强 现实 系统 必须 尽 可 能 地 忍受 这 些 行为 。 这 需要 具有 很 强 鲁 棒 
性 的 算法 来 处 理 很 可 能 频繁 发 生 的 干扰 。 特 别 是 必须 经 常 进行 跟踪 初始 化 、 以 最 小 化 的 延迟 
并 使 用 才干 蔡 代 方 法 (防止 单一 方法 的 失败 ) 进行 操作 。 这 是 一 个 当今 的 商业 (或 研究 ) 解 
决 方案 还 不 能 很 好 处 理 的 领域 。 


14.3.2 ”有限 的 设备 能 力 


在 不 久 的 将 来 ， 定 位 必须 直接 工作 在 设备 上 。 在 云端 进行 定位 是 一 个 很 有 吸引 力 的 解决 
方案 ， 但 是 目前 存在 着 无 法 接受 的 延迟 。 现 今 的 无 线 网 络 速度 很 快 ， 但 其 性 能 随 实际 室外 
位 置 的 不 同 会 发 生 剧 烈 的 变化 。 我 们 不 能 指望 网 络 连接 始终 支持 实时 应 用 程序 的 远程 过 程 调 
用 。 即 使 如 此 ， 这 也 并 不 意味 着 不 可 以 遵循 客户 端 - 服务 融 系 统 的 解决 思路 。 异 步 方 案 可 能 
会 是 一 种 有 效 的 工作 方式 ， 其 中 服务 顺 用 于 调用 预 取 数 据 或 执行 后 台 操 作 ， 而 客户 病 以 稳定 
的 帧 率 生成 实际 的 增强 现实 显示 。 然 而 ,这样 的 异步 系统 必须 通过 某 种 形式 的 服务 质量 适度 
降级 来 允许 网 络 延 迟 和 吞吐 量 的 大 范围 改变 。 即 使 服务 从 没有 及 时 响应 ， 用 户 也 应 该 有 一 些 
可 用 的 选项 。 这 将 需要 重新 思考 增强 现实 应 用 系统 设计 ， 即 应 该 具有 取决 于 整个 系统 状态 的 
多 级 别 操作 。 当 然 ， 增 强 现实 系统 内 部 对 并 发 的 需求 将 使 系统 开发 更 加 复杂 。 
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14.3.3 ETRIE 


我 们 需要 使 用 本 书 中 讨论 的 所 有 技巧 来 提高 定位 成 功率 [Arth et al. 2009] [Arth et al. 
2012] [Arth et al. 2015]。 尽 管 存在 众多 技术 ,但 是 那些 性 能 足够 好 的 技术 通常 只 在 解决 特定 
问题 上 表现 优异 。 一 些 技术 可 以 鲁 棱 地 处 理 困 难 的 观看 条 件 ， 而 其 他 一 些 技术 可 以 在 输入 数 
据 较 少时 (来自 模型 数据 库 或 实时 输入 流 ) 工作 。 通 常 依赖 大 量 数 据 或 计算 的 算法 具有 较 高 
的 成 功率 。 这 可 能 意味 着 我 们 必须 通过 数据 库 进 行 穷尽 搜索 而 不 是 局 发 式 搜 索 ， 或 者 使 用 密 
集 而 不 是 稀 疏 特征 跟踪 。 我 们 还 想 使 用 设备 的 所 有 功能 ， 包 括 所 有 传感器 和 计算 单元 。 使 用 
新 型 传感器 是 非常 有 帮助 的 ， 例 如 更 精确 的 惯性 和 姿态 传 感 硕 、 深 度 传 感 融 以 及 GPGPU 等 
新 型 计算 单元 ， 但 是 它们 的 使 用 会 极 大 地 增加 能 耗 。 只 有 将 这 些 功 能 组 合 在 一 起 才 可 能 提高 
系统 在 自然 环境 中 的 成 功率 。 显 然 ， 即 使 所 使 用 的 硬件 设备 足够 强大 ， 这 种 解决 方案 依旧 意 
味 着 非常 复杂 的 软件 工程 。 适 应 各 种 硬件 功能 (包括 那些 仅 在 人 门 级 设备 中 可 用 的 功能 ) 是 
更 加 具有 挑战 性 的 工作 。 

总 之 ， 如 今 已 经 出 现 了 许多 户外 增强 现实 的 解决 方案 , 但 是 利用 这 些 方 法 并 不 容易 。 同 
时 应 对 所 有 挑战 需要 非常 复杂 的 软件 工程 ， 这 远 远 超过 了 在 简单 的 移动 设备 领域 “应 用 程序 
通常 被 认为 经 济 上 可 接受 的 软件 复杂 性 。 除 了 客户 端 软 件 ， 同 时 还 需要 构建 云 服务 形式 的 基 
础 设施 。 我 们 预测 在 可 用 的 户外 增强 现实 出 现 之 前 还 需要 经 过 数 年 的 开发 。 


14.4 与 智能 对 象 交 互 


最 初 在 20 世纪 90 年 代为 普 适 计算 所 提出 的 许多 想法 今天 在 物 联网 (IoT) 这 个 术语 下 再 
次 出 现 。 这 种 趋势 的 产生 源 于 越 来 越 多 的 消费 电子 设备 由 片上 系统 控制 而 不 是 由 更 传统 的 微 
控制 器 控制 这 一 事实 。 供 应 商 为 了 展示 他 们 的 产品 和 苋 争 对 手 产 品 的 不 同 之 处 ， 正 在 使 用 片 
上 系统 的 可 编程 性 通过 软件 添加 新 功能 。 无 线 网 络 是 这 些 新 功能 之 一 一 一 能 够 将 普通 对 象 转 
换 为 连接 到 物 联网 上 的 智能 对 象 。 在 工业 中 也 可 以 观察 到 类 似 的 趋 努 ， 其 中 机 人 右 和 设施 被 组 
织 成 网 络 物 理 系 统 。 

物 联 网 的 新 容 之 处 在 于 它 为 用 户 提 供 了 对 物理 环境 的 高 级 控制 。 然 而 ， 目 前 不 浓 楚 哪 种 
类 型 的 用 户 界面 适合 该 控制 任务 。 首 先 ， 可 能 存在 大 量 的 控制 参数 ， 其 中 许多 参数 不 容易 被 
非 专 业 人 士 理解 。 其 次 ， 为 了 局 得 用 户 的 广泛 接受 ， 人 允许 用 户 连接 到 未 知 设备 和 服务 的 发 现 
服务 并 非 吻 事 。 

增强 现实 提供 了 一 个 将 我 们 从 台式 计算 中 熟知 的 直接 操作 带 到 包含 智能 对 象 环 境 中 的 机 
会 。 假 设 增强 现实 系统 能 够 检测 用 户 当 前 正在 注视 或 触摸 的 对 象 ， 增 强 现 实 系 统 可 以 通过 物 
联网 污 目 标 对 象 进 行 联系 并 让 用 户 控制 该 对 象 。 该 控制 可 以 直接 通过 用 于 直接 物理 操纵 的 有 
形 界 面 或 虚拟 界面 来 执行 。 如 采 目 标 对 象 不 是 静止 的 ， 或 者 位 于 远 处 ， 或 者 期 望 的 控制 范围 
内 同时 涉及 多 个 对 象 ， 则 选用 虚拟 界面 更 加 合适 。 

与 传统 的 有 形 交 互相 比 ， 这 种 形式 的 增强 现实 具有 如 下 几 个 优点 。 首 先 ， 通 过 增强 现实 
显示 颖 可 以 从 视觉 上 观察 到 被 控制 智能 对 象 的 状态 特性 。 其 次 ,来 目 控 制 交 互 的 反馈 可 以 呈 
现在 增强 现实 显示 右 中 。 这 两 个 优点 对 于 智能 对 象 尤 其 重要 ， 其 原因 在 于 管 能 对 和 象 本 号 不 具 
有 足够 的 能 力 来 呈现 反馈 一 一 例如 它们 非常 小 或 者 缺少 显示 需 。 

在 用 户 周边 环境 中 对 象 的 空间 布置 是 环境 感知 的 一 个 重要 来 源 ， 但 在 当前 的 物 联网 方法 
中 几乎 没有 被 使 用 。 我 们 可 以 看 看 个 人 显示 融 这 一 案例 ， 如 今 大 多 数 人 拥有 多 个 显示 天 : 在 
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客厅 里 的 电视 机 、 人 台式 或 笔记 本 电脑 、 智 能 手机 和 平板 电脑 等 。 电 视 机 具有 互联 网 连接 ， 而 
新 款 轿 车 具有 和 触摸屏。 智能 手表 和 眼镜 内 置 的 显示 器 受到 了 很 大 关注 。 上 述 显示 器 中 的 某 
些 显示 露 可 以 用 于 互 操作 。 例 如 ， 我 们 可 以 通过 汽车 收音 机 触摸 屏 上 的 智能 手机 控制 音乐 播 
放 ， 或 者 将 文本 信息 转发 到 智能 手表 。 第 二 块 屏 应 用 程序 显示 提供 当前 正在 播 出 的 电视 节目 
背景 信息 的 网 页 。 然 而 ， 当 前 这 种 互 操作 的 机 会 是 相当 稀少 的 。 

在 将 来 ,我们 期 望 每 条 信息 都 能 够 基于 空间 距离 和 简单 的 用 户 输入 被 送 到 任何 可 用 的 
显示 希 上 。 事 实 上 ， 越 来 越 多 的 研究 原型 已 经 开始 在 探索 这 个 想法 [Grubert et al. 2015]. #4 
反 ， 商 业 供应 商 通常 仅 在 上 自己 的 系列 产品 中 支持 互 操作 。 历 史上 互 操 作 性 领域 的 进展 一 直 很 
慢 ， 因 为 它 或 者 需要 一 个 通过 建立 标准 的 垂直 系统 集成 方法 (对 于 具有 某 种 市 场 文 配 地 位 的 
工业 企业 最 可 以 接受 的 )， 或 者 是 潜在 的 见长 行业 标准 谈判 。 

同样 的 考虑 也 适用 于 输入 。 在 给 定 环境 中 空间 关系 的 描述 信息 的 条 件 下 ， 可 以 推断 与 增 
强 现 实 跟踪 和 注册 相关 的 众多 几何 关系 [Pustka et al. 2011]。 例 如 ， 多 级 跟踪 系统 (在 两 个 用 
户 的 智能 电话 上 运行 的 两 个 相机 跟踪 系统 ) 可 以 是 菊 链 式 的 ， 从 而 间接 追踪 的 对 象 的 位 姿 也 
可 用 于 增强 现实 应 用 。 目 前 ,在 跟踪 系统 之 间 没 有 这 样 的 互 操 作 性 ， 因 此 丢失 了 许多 机 会 。 


14.5 虚拟 现实 与 增强 现实 的 融合 


当 增强 现实 系统 知道 我 们 周边 物理 环境 的 所 有 信息 时 会 发 生 什 么 ”三维 传 感 和 实时 重建 
技术 的 发 展 速度 是 惊人 的 ， 可 以 为 我 们 提供 周围 环境 的 详细 模型 。 经 过 足够 的 努力 ， 我 们 可 
以 生成 几乎 与 摄像 机 拍摄 图 像 完 全 一 致 的 数字 化 环境 的 合成 视图 。 

最 终 ， 场 景 采集 将 可 以 实时 进行 ， 这 将 有 助 于 我 们 提供 一 个 完美 的 、 基 于 现实 世界 的 虚 
拟 现实 体验 ， 有 效 地 将 增强 现实 和 虚拟 现实 融合 为 高 质量 的 增强 虚拟 现实 。 我 们 将 不 再 需要 
不 同 的 增强 现实 和 虚拟 现实 系统 ， 而 是 可 以 随意 在 不 同 层次 的 现实 之 间 转 换 。 用 户 可 以 瞬间 
变换 其 所 处 的 位 置 ， 或 任意 改变 我 们 的 现实 世界 。 

阿兰 . 图 灵 设 计 了 一 个 仿真 游戏 [Turing 1950]， 通 常 被 称 为 图 灵 测 试 ， 参 与 测试 的 用 户 
进行 书面 交互 ， 必 须 辨 别 是 由 人 类 用 户 还 是 由 计算 机 回复 的 。 不 久 的 将 来 ,我们 可 能 会 看 到 
增强 虚拟 现实 体验 通过 视觉 图 灵 测 试 [Shan et al. 2013]， 测 试 中 真实 场景 照片 和 演 染 图 像 同 
时 显示 ， 人 们 将 无 法 分 辨 两 者 之 中 哪个 是 真实 的 ， 哪 个 是 泻 染 的 。 然 而 ， 即 使 不 考虑 增强 现 
实 系统 的 实时 需求 ， 采 用 动态 图 像 实现 这 样 的 效果 是 非常 具有 挑战 性 的 。 

一 个 更 大 的 挑战 是 触觉 反馈 的 真实 感 呈现 。 虽 然 增 强 现实 系统 在 不 考虑 触 力 党 反馈 时 可 
以 被 很 容易 地 实现 ,但 我 们 在 第 2 章 中 关于 多 感知 增强 现实 的 讨论 表明 引入 触 党 反馈 对 增强 
现实 系统 体验 感 的 增强 具有 非常 大 的 潜在 好 处 。 触 党 反馈 的 选择 包括 我 们 在 14.6 节 中 所 讨 
论 的 可 和 穿戴 或 可 植 人 设备 ， 以 及 可 以 改变 我 们 面前 物理 环境 的 未 来 视觉 可 编程 物体 的 愿景 
[Goldstein et al. 2005]. 


14.6 ”增强 人 


科幻 文学 作品 已 经 普及 了 网 络 有 机 体 的 概念 ， 即 半 机 械 人 ， 他 们 身体 的 一 部 分 是 人 、 一 
部 分 是 机 化。 这 些 作 品 中 有 许多 是 反 乌 托 邦 的 ， 而 半 机 械 人 则 扮演 恶棍 的 角色 。 同 时 ， 许 多 
正在 进行 的 技术 开发 旨 在 增强 普通 人 的 感知 和 行为 。 

与 设计 理念 是 让 用 户 持 续 使 用 的 智能 手机 不 同 ， 可 穿戴 计算 机 意味 着 成 为 我 们 衣物 的 一 
部 分 ， 甚 至 可 以 看 作 我 们 身体 的 延伸 。 可 穿戴 设备 的 一 个 显著 优势 是 它们 永远 在 线 ， 只 在 交 
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互 持续 的 非常 短 的 时 间 内 (例如 几 分 之 一 秒 ) 工作 。 这 样 的 微 交 互 不 可 能 通过 首先 必须 从 口 
袋 中 取出 并 且 占 用 用 户 注 意 力 的 装置 来 实现 。 

在 可 穿戴 计算 中 最 重要 的 是 传感器 和 执行 句 的 放置 位 置 。 最 明显 的 位 置 是 头 部 ， 可 以 用 
于 放置 眼镜 、 耳 机 、 麦 克 风 、 视 线 跟 踪 和 与 观看 方向 配 准 的 摄像 机 等 。 与 其 他 身体 穿戴 的 显 
示 设 备 相 比 ， 头 戴 式 显示 需 具 有 巨大 的 优势 ， 显 示 器 总 是 保持 在 用 户 的 视野 中 并 且 用 户 可 以 
在 不 占用 手 部 的 情况 下 随时 观看 。 头 戴 式 电子 设备 在 隐私 保护 方面 有 显著 的 改进 ， 周 边 的 观 
察 者 通常 无 法 知道 用 户 正 在 从 事 哪些 活动 。 手 腕 是 佩戴 智能 手表 或 手 环 的 合适 位 置 。 手 环 可 
以 测量 血压 或 脉搏 等 生理 信号 ， 同 时 可 以 容纳 手势 传 感 希 。 

其 他 用 于 量化 自身 健康 程度 应 用 程序 的 映 体 信和 号 传感器 可 以 放置 在 胸部 等 其 他 身体 
区 域 。 惯 性 传感器 可 以 放置 在 号 体 的 任意 位 置 用 于 记录 步 数 ， 也 可 以 用 于 姿态 检测 和 行 
为 识别 。 类 似 地 ， 放 置 在 身体 上 的 震动 器 可 以 在 不 占用 眼睛 和 和 耳 人 条 的 条 件 下 提供 周边 环 
境 的 信息 。 

脑 电 图 ( EEG) 装置 通常 以 帽子 的 形式 佩戴 在 颅骨 上 。 不 与 皮肤 直接 接触 的 低 成 本 传 感 
甫 性 能 相对 有 限 ， 但 逐渐 可 以 通过 脑 电 分 析 来 检测 情感 状态 和 脑 活动 。 脑 机 接口 的 研究 表 
明 普 通用 户 也 可 以 接触 到 简单 的 “心灵 感应 ”应 用 程序 [Friedrich 2013]， 通 过 思想 控制 周 
围 环境 。 在 输出 侧 ， 脑 深部 电 刺 激 技 术 (目前 依赖 于 侵入 性 电极 ) 已 成 功 地 减轻 了 震颤 患 
者 的 症状 。 

一 个 将 所 有 这 些 技术 进行 结合 的 重要 应 用 领域 是 辅助 生活 。 眼 镜 等 用 于 老年 人 或 残疾 人 
的 被 动 辅助 设备 已 经 应 用 了 数 个 世纪 。 电 子 助听器 是 一 个 较 新 的 发 明 ， 应 用 十 分 广泛 。 新 技 
术 有 很 大 的 洪 力 提高 辅助 生活 的 效果 一 一 不 仅仅 适用 于 那些 真正 需要 这 些 技 术 的 个 体 ， 同 时 
也 适用 于 寻求 便捷 生活 的 健康 个 体 。 头 戴 式 显示 器 可 以 通过 视频 放大 和 文本 语音 转换 提供 主 
动 阅 读 辅 助 。 惯 性 传 感 右 可 以 检测 佩戴 者 是 否 摔 倒 或 停止 移动 ， 严 重 准 疯 患者 也 已 经 可 以 通 
过 脑 电 来 进行 沟通 。 

所 有 这 些 技术 与 复杂 的 增强 现实 系统 相 绪 合 将 肯定 赋予 人 类 似 于 半 机 械 人 的 能 力 ， 而 不 
需要 采取 穿 者 力量 增强 外 骨骼 《在 军事 应 用 中 确实 存在 ) 或 在 皮肤 内 有 创 植 人 传 感 设备 等 极 
端 措 施 ， 目 前 尚 不 清楚 哪 种 形式 的 人 类 增强 会 被 社会 接受 。 最 近 ， 对 于 早期 佩戴 谷歌 眼镜 用 
户 的 公众 反应 表明 他 们 对 与 视频 监控 的 潜在 滥用 极为 关注 。 一 方面 ， 他 们 似乎 认为 偷偷 使 用 
可 穿戴 电子 设备 比 使 用 智能 手机 等 可 视 电 子 产 品 会 带 来 更 多 的 问题 。 另 一 方面 ， 我 们 自愿 
(或 者 是 不 那么 自愿 地 提供 给 秘密 政府 服务 ) 将 我 们 生活 的 许多 细节 暴露 到 谷歌 和 脸 书 等 云 
服务 等 系统 中 ， 包 括 我 们 的 朋友 、 我 们 的 日 程 ， 甚 至 是 精确 的 位 置 [Feiner 1999]. 

有 人 可 能 会 认为 可 穿戴 技术 的 这 些 问 题 之 所 以 引起 公众 的 注意 是 因为 这 种 设备 突然 让 他 
们 变 得 物理 透明 了 。 显 然 ， 可 穿戴 计算 必须 提供 一 个 大 家 可 以 接受 的 社会 行为 准则 。 这 个 社 
会 准则 的 原则 必须 建立 在 数据 隐私 的 问题 上 ， 而 不 是 建立 在 增强 现实 等 用 户 界 面 的 表现 上 。 


14.7 ”作为 戏剧 媒介 的 增强 现实 


MacIntyre 等 人 [2001] 认为 增强 现实 应 该 从 一 项 技术 能 力 发 展 成 为 叙事 性 的 戏剧 媒介 ， 
因此 我 们 必须 为 增强 现实 制定 适当 的 媒体 形式 。 根 据 这 些 研究 人 员 的 说 法 , “媒体 形式 可 以 
被 认为 是 一 套 惯 例 和 设计 元 素 ， 作 家 和 开发 人 员 可 以 通过 这 种 媒介 为 目标 用 户 创造 有 意义 的 
体验 。 换 名 话说， 即使 我 们 解决 增强 现实 的 所 有 技术 问题 (这 也 是 本 书 的 核心 内 容 )， 我 们 
也 不 能 成 功 地 使 用 增强 现实 作为 与 剧场 、 电 影 、 电 视 节目 或 目前 的 电脑 游戏 等 相提并论 的 戏 
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剧 媒 介 。 
新 媒体 本 身 没 有 媒体 形式 ， 因 此 其 惯例 和 实践 必须 随 其 使 用 而 变化 。 正 如 Orson Welles 
的 电影 《公民 凯 恩 》 被 认为 是 现代 电影 摄影 的 鼻祖 ， 所 以 未 来 几 年 我 们 必须 建立 增强 现实 故 
事 叙 述 的 媒体 形式 。 我 们 可 以 使 用 Azuma [1997] 中 对 增强 现实 的 要 求 作为 需要 增强 现实 的 
重要 特点 加 以 考虑 : 
e 增强 现实 是 虚实 结合 的 。 在 真实 物理 环境 中 任何 地 方 显示 的 虚拟 内 容 都 应 带 给 用 户 
丰富 的 体验 感 。 
e 增强 现实 是 空间 注册 的 。 这 人 允许 用 户 控制 体验 的 视点 。 
o 增强 现实 是 实时 交互 的 。 即 使 对 于 被 动 虚拟 内 容 的 体验 ， 我 们 也 至 少 会 与 真实 物理 
空间 进行 交互 。 
比如 在 考虑 来 日 目 由 相机 控制 的 叙事 焦点 问题 时 ， 用 户 必须 主动 地 将 摄像 机 指 回 角色 或 
对 象 ， 这 对 于 故事 剧情 的 进一步 发 展 十 分 重要 。 在 电脑 游戏 中 ， 第 一 人 称 的 摄像 机 控制 经 党 
会 被 “剪辑 场景 ”中 的 脚本 摄像 机 控制 所 取代 ， 这 是 故事 中 的 非 交 互 部 分 。 与 游戏 不 同 ， 增 
强 现实 系统 不 能 代替 用 户 对 摄像 机 的 操控 。 这 很 可 能 会 导致 一 个 令 人 惊讶 的 结论 ， 增 强 现实 
带 来 的 体验 可 能 更 像 是 戏剧 舞台 或 者 互动 博物 馆 ， 而 不 是 电影 或 游戏 。 


14.8 ”作为 社交 计算 平台 的 增强 现实 


除了 作为 可 视 化 工具 或 戏剧 媒介 之 外 ， 增 强 现实 可 以 成 为 一 种 通信 工具 ， 在 这 方面 它 与 
万 维 网 有 许多 共同 点 ， 从 用 于 被 动 消费 者 的 经 典 信 息 系统 发 展 到 通用 应 用 平台 ， 更 重要 的 是 
发 展 成 为 将 数 十 亿 人 相互 连接 的 社交 计算 平台 。 

我 们 可 以 假设 ， 即 使 我 们 设法 使 移动 增强 现实 设备 成 为 一 个 完全 可 以 独立 处 理 的 模块 ， 
但 是 它 的 内 容 仍 然 在 云端 。 该 内 容 可 以 由 媒体 从 业 人 员 [Hallerer et al. 1999a] 或 交通 管理 局 
等 供应 商 提供 ， 但 可 能 会 越 来 越 多 地 由 社会 网 络 中 的 其 他 个 体 创 建 。 除 了 推 符 的 “ 推 文 话题 
等 专题 类 别 之 外 ， 增 强 现实 用 户 的 位 置 和 周围 情境 将 会 被 滤 除 掉 。flickr 和 Panoramio 等 照 
片 网 站 已 经 允许 滤 除 地 理 位置 ， 因 此 社交 网 络 用 户 应 该 熟悉 这 个 想法 。 然 而 ， 增 强 现实 应 用 
将 超越 这 一 概念 ， 因 为 增强 现实 内 容 不 仅 取决 于 粗略 的 地 理 位 置 ， 同 时 还 与 精确 指定 的 位 置 
相关 一 一 包括 例如 特定 的 人 、 特 定 的 对 象 或 某 一 物体 的 特定 部 分 。 高 级 形式 的 元 信息 对 于 用 
户 从 大 量 的 数据 中 搜索 到 有 用 的 信息 是 十 分 必要 的 。 

支持 这 种 内 容 规 范 的 标记 语言 已 经 在 开发 中 。 增 强 现实 标记 的 最 简单 解决 方案 可 以 通过 
从 已 知 的 网 络 概 念 直接 转换 到 增强 现实 情境 来 实现 [Maclntyre et al. 2013] : 一 个 真实 世界 的 
物品 (不 一 定 是 一 个 物理 对 象 ) 被 链接 到 一 块 虚拟 内 容 。 物 品 、 链 接 和 内 容 是 增强 现实 标记 
的 三 个 组 成 部 分 。 内 容 的 布局 由 样式 驱动 ， 因 此 允许 虚拟 物体 空间 布置 的 必要 灵活 性 。 位 置 
细节 信息 作为 物品 或 内 容 的 属性 给 出 ， 从 而 允许 通过 多 种 方式 建立 位 置信 息 。 

和 网 络 浏览 右 一 样 ， 基 于 这 种 设计 的 增强 现实 浏览 右 可 以 将 许多 内 容 流 合并 到 一 个 显示 
器 中 。 这 十 分 重要 ， 因 为 我 们 需要 克服 “增强 现实 应 用 程序 ”完全 占用 设备 和 用 户 注 意 力 的 
主流 方式 。 正 如 许多 脸 书 用 户 将 他 们 屏幕 的 一 部 分 专门 用 于 脸 书 时 间 线 ， 从 而 成 了 一 种 观察 
背景 活动 的 周边 显示 那样 ， 增 强 现实 浏览 器 可 以 “始终 开启 ”并 以 用 户 所 期 望 的 强度 呈现 多 
源 情 境 信息 。 增 强 现实 的 研究 人 员 一 直 在 寻找 这 样 一 个 “撒手 铜 应 用 程序 ”[Navab 2004]. 
这 意味 着 [Barba et al. 2012] 增强 现实 应 该 成 为 统一 数 子 和 物理 宇宙 的 撤 手 铜 体验 。 
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14.9 小结 


当 你 读 到 这 些 文字 时 未 来 正在 成 为 现实 。 本 章 提 到 的 许多 机 会 痢 非 第 接近 于 癌 主 流 受 众 
群体 发 布 。 当 然 市 场 上 的 成 功 和 广泛 接受 取决 于 多 种 因素 ， 因 此 很 难 预测 ， 本 章 探 讨 了 目前 
已 经 开始 成 功 进行 增强 现实 技术 商用 的 一 些 领域 。 增 强 现实 将 与 新 型 的 智能 物体 互联 网 相 结 
合 ， 它 将 会 被 需要 辅助 的 用 户 所 接受 ， 它 会 被 媒体 从 业者 所 采用 ， 它 将 被 用 作 社 交 媒 体 。 虽 
然 所 有 这 些 领域 都 可 以 〈 并 且 确 实 ) 不 依赖 于 增强 现实 而 独立 存在 ， 但 是 与 增强 现实 相 结 合 
将 会 让 它们 变 得 更 加 丰富 多 彩 。 

增强 现实 为 技术 和 设计 提供 了 许多 绝 佳 的 机 会 。 我 们 希望 正在 阅读 本 书 的 你 可 以 为 其 进 
一 步 的 发 展 做 出 巨大 贡献 ! 
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